机器学习十讲学习笔记第一讲

机器学习第一讲

大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F，从Data到X的步骤通常是人工完成的（特征工程）。
深度学习是机器学习的一部分，其核心是自动找到对特定任务有效的特征，也即自动完成Data到X的转换。
如果我们的任务Y是模拟人类（自动驾驶、围棋AlphaGO）的行为，则这类任务称为人工智能。深度学习也是目前AI中的核心技术

机器学习方法分3类：

有监督学习（supervised learning）
- 数据集中的样本带有标签，有明确目标
- 回归和分类
无监督学习（unsupervised learning）
- 数据集中的样本没有标签，没有明确目标
- 聚类、降维、排序、密度估计、关联规则挖掘
强化学习（reinforcement learning）
- 智慧决策的过程，通过过程模拟和观察来不断学习、提高决策能力
- 例如：AlphaGo

有监督学习：

数据集中的样本带有标签
目标：找到样本到标签的最佳映射
应用场景：垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
典型方法
- 回顾模型：线性回归、岭回归、LASSO和回归样条等
- 分类模型：逻辑回归、k近邻、决策树、支持向量机等

无监督学习：

聚类：讲数据集中相似的样本进行分组，使得：
- 同一组对象之间尽可能相似；
- 不同组对象之间尽可能不相似。
应用场景：
- 基因表达水平聚类
- 篮球运动员划分
- 客户分析

强化学习：

基本概念
- agent：智能体
- environment：环境
- state：状态
- action：行动
- reward：奖励
策略：π
目标：
- 求解最大化效用E的最优策略

过拟合问题

模型过于复杂，导致所选模型对已知数据预测得很好，但对未知数据预测很差。

度量结构：以文本处理为例，计算两篇文章词频向量的余弦相似度。

k近邻算法最常用的数据结构为k-d树，它是二叉搜索树。

PageRank算法：

在网络结构上定义邻接矩阵A=[a_ij]，其中a_ij定义为节点i与j相连为1否则为0
从邻接矩阵得到概率转移矩阵，T=[t_ij]，其中

$t i j = a i j \sum j a i j$
如果用π_i表示节点i的重要性，求解方程π=πT
可见PageRank的解是转移矩阵特征值1对应的特征向量

posted on 2021-01-27 22:10 pjhhh 阅读(122) 评论(0) 收藏举报

刷新页面返回顶部