机器学习扫盲笔记
第一章:绪论
1:基础概念
数据集:100个西瓜 样本:1个西瓜 特征向量:颜色,大小,响度 属性:颜色
样本(样例):数据的特定实例,为xn,分为有标签样本和无标签样本,
有标签样本包含特征和标签,无标签包含特征,不包含标签
标签:要预测的事务,为y
特征:输入变量,为x
机器学习:机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。旨在准确的预测
机器学习的一般步骤:搜集数据,数据预处理,选择模型,训练模型,评估模型,参数微调,预测
样本属性的主要类型:连续性,二值离散,多值离散,混合类型
奥卡姆剃刀:选择简单的那个
没有免费的午餐定理(NFL定理):无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能都相同。
2:分类
有监督学习
分类:二分类为题(瓜栽还是不摘)多分类(市场上有哪些瓜)
回归:预测下年西瓜啥时间是最便宜的
无监督学习
聚类:大小
区别:有监督学习有老师教,无监督学习没有老师教,有监督学习通过已有的训练样本得到模型,在利用模型将所有输入映射为相应输出。无监督学习没有任何训练样本,而是直接对数据进行建模。聚类。
第二章:模型评估
随着训练样本的增加,平均训练误差会增大,平均测试误差会减小
1:评估方法
2:评估指标
准确率
错误率
查准率(P)
查全率(R)
调和均值F1
PR曲线:
比较集中曲线的好坏:
方法一:查全率相同,查准率高的好
方法二:比较面积
ROC曲线:
ROC曲线判断好坏:
越凸越好
AUC
CLL
3:比较检验
测试集的保留方法
留出法(部分数据用来训练,部分数据用来预测,三七分)
交叉验证法:K折交叉验证
自助法:
验证集:调参
性能度量:
均方误差
错误路与精度
查准率和查全率:(样本分布不均衡,使用错误率不准确了)
第三章:线性模型
1:线性回归
使用最小二乘法对w和b进行评估
2:广义线性回归
现实中很多问题是非线性的,将线性回归的预测值做一个非线性的函数变化去逼近真实值
联系函数为指数函数式,成为对数线性回归
3:逻辑斯蒂回归—二分类问题
4:多分类学习
第四章:支持向量机
1:概念
确定一个分类超平面,从而将不同的数据分割开
使用现成的或则拉格朗日乘子法
2:分类
线性可分支持向量机
线性支持向量机
非线性支持向量机
3:核函数
将非线性转化为线性问题
一般由经验给出
正定核——正定矩阵
多项式核函数
高斯核函数
第五章:神经网络
MP神经元模型
单层感知机
只拥有一层MP神经元
多层前馈神经网络
误差逆传播算法(BP)
BP面临的问题
1) 结构学习问题
2) 初始化问题
3) 步长设置问题
4) 权值与阈值的更新问题
5) 过拟合问题
深层神经网络
第六章:决策树学习
根据某些特征的判别对数据进行分类
最佳划分的度量问题
不纯度量
增益率
C4.5的启发式方法
例:根据天气,温度等划分决策树
计算各信息增益,最大的是OutLook,根据OutLook划分
判断Sunny有2+和3-不是叶子节点,再划分,计算其他的信息增益,发现Humidity最大,
处理缺失属性问题
过拟合
预剪枝
后剪枝(实践中更直接)
第七章:贝叶斯
贝叶斯定理:
朴素贝叶斯定理:假设输入的不同特征之间是独立的。
应用:文本分类,垃圾邮件过滤,病人分类,拼音检查
极大似然估计MLE:模型已定,参数未知,
最大后验概率MAP:获得对实验数据中无法直接观察到的量的点估计。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。
因为MLE 只考虑训练数据拟合程度没有考虑先验知识,把错误点也加入模型中,导致过拟合。
基础知识
朴素贝叶斯分类器
条件独立
例:天气等
改进
1) 处理算法:结构扩展
2) 处理数据:
面向特征(特征选择,特征加权)
面向实例(实例选择,实例加权)
第八章:最近邻学习kNN
积极学习:有显式的训练过程,都是在训练阶段对样本进行学习处理,构建分类模型
消极学习(lazy learning):没有显式训练过程,训练阶段只是把训练样本保存起来,建模工作
延迟到工作阶段才进行处理,如最近邻学习
近邻索引问题
几乎所有计算花费都在索引近邻上,使用最多的是通过计算待测样本与每一个训练样本之间的距离,然后基于距离排序,选择距离最短的k个训练样本作为待测赝本。
维度灾害问题
如果目标函数仅依赖于很多属性中的几个时,样本间的距离会被大量不相关的属性所支配,从而导致相关属性的值很接近的样本相距很远。
解决方案:属性加权,属性选择(加权为0和1)
领域大小问题
基于经验直接给出,基于数据自动学习
后验概率问题
计算效率问题
归纳偏置问题’
第八章:集成学习
构件并结合多个学习期来完成学习任务,有时又称多分类器系统。先产生一组个体学习器,再用某种策略将他们结合起来。
个体强依赖必须串行生成序列——Boosting
个体不强依赖可并行化——bagging和随机森林
Boosting
Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。
AdaBoost
AdaBoosting方式每次使用的是全部的样本,每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。Boosting会减小在上一轮训练正确的样本的权重,增大错误样本的权重。(对的残差小,错的残差大)分类器更加关注分错的样本点
GBDT
回归树,梯度上升决策树,核心在于累加所有树的结果,一个人是30岁,先用20岁去拟合,然后发现损失有10岁,再用6岁去拟合剩下的损失,发现差距还有4岁,继续迭代,拟合的岁数的误差就会越来越小,不断拟合残差
Bagging与随机森林(RF)
Bgging:在原始数据集中有放回的选取,均匀取样,
第九章:聚类
距离计算
明科夫斯基距离(曼哈顿距离和欧式距离)
K均值算法(kmeans)
学习向量量化
高斯混合聚类:采用概率模型来表达
基于密度的聚类
层次聚类
k-means:K是指所要聚的cluster的数量,means是指每一个cluster都有一个中心点(质心),这个质心是cluster中所有点的平均值,分别计算样本中每个点与K个质心的欧式距离,离哪个质心最近,这个点就被划到哪一类中。继续选出新的质心,如果新的质心与旧的质心的差距小于一定得阈值,则不再更新。
GMM(高斯混合模型):所有的分布可以看做是多个高斯(正态)分布综合起来的结果。这样一来,任何分布都可以分成多个高斯分布来表示。通过样本找到K个高斯分布的期望和方差,那么K个高斯模型就确定了。在聚类的过程中,不会明确的指定一个样本属于哪一类,而是计算这个样本在某个分布中的可能性。
第十章:强化学习