机器学习十讲学习笔记第一讲

机器学习第一讲

  • 大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
  • 机器学习是大数据分析的核心内容。机器学习解决的是找到将XY关联的模型F,从DataX的步骤通常是人工完成的(特征工程)。
  • 深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成DataX的转换。
  • 如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGO)的行为,则这类任务称为人工智能。深度学习也是目前AI中的核心技术

机器学习方法分3类:

  • 有监督学习(supervised learning)
    • 数据集中的样本带有标签,有明确目标
    • 回归和分类
  • 无监督学习(unsupervised learning)
    • 数据集中的样本没有标签,没有明确目标
    • 聚类、降维、排序、密度估计、关联规则挖掘
  • 强化学习(reinforcement learning)
    • 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力
    • 例如:AlphaGo

有监督学习:

  • 数据集中的样本带有标签
  • 目标:找到样本到标签的最佳映射
  • 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
  • 典型方法
    • 回顾模型:线性回归、岭回归、LASSO和回归样条等
    • 分类模型:逻辑回归、k近邻、决策树、支持向量机等

无监督学习:

  • 聚类:讲数据集中相似的样本进行分组,使得:
    • 同一组对象之间尽可能相似;
    • 不同组对象之间尽可能不相似。
  • 应用场景:
    • 基因表达水平聚类
    • 篮球运动员划分
    • 客户分析

强化学习:

  • 基本概念
    • agent:智能体
    • environment:环境
    • state:状态
    • action:行动
    • reward:奖励
  • 策略:π
  • 目标:
    • 求解最大化效用E的最优策略

过拟合问题

  • 模型过于复杂,导致所选模型对已知数据预测得很好,但对未知数据预测很差。

度量结构:以文本处理为例,计算两篇文章词频向量的余弦相似度。

k近邻算法最常用的数据结构为k-d树,它是二叉搜索树。

PageRank算法:

  • 在网络结构上定义邻接矩阵A=[aij],其中aij定义为节点ij相连为1否则为0

  • 从邻接矩阵得到概率转移矩阵,T=[tij],其中

     

    tij=aijjaijtij=aij∑jaij

     

  • 如果用πi表示节点i的重要性,求解方程π=πT

  • 可见PageRank的解是转移矩阵特征值1对应的特征向量

posted on 2021-01-27 22:10  pjhhh  阅读(91)  评论(0编辑  收藏  举报