机器学习常见算法个人总结(面试用)
By Kubi Code
朴素贝叶斯
参考[1]
事件A
和B
同时发生的概率为在A发生的情况下发生B
或者在B发生的情况下发生A
P(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)
所以有:
P(A|B)=P(B|A)∗P(A)P(B)
对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别
工作原理
- 假设现在有样本x=(a1,a2,a3,…an)这个待分类项(并认为x里面的特征独立)
- 再假设现在有分类目标Y={y1,y2,y3,y4..yn}
- 那么max(P(y1|x),P(y2|x),P(y3|x)..P(yn|x))就是最终的分类类别
- 而P(yi|x)=p(x|yi)∗P(yi)P(x)
- 因为x对于每个分类目标来说都一样,所以就是求max(P(x|yi)∗p(yi))
- P(x|yi)∗p(yi)=p(yi)∗∏i(P(ai|yi))
- 而具体的p(ai|yi)和p(yi)都是能从训练样本中统计出来
p(ai|yi)表示该类别下该特征出现的概率
p(yi)表示全部类别中这个这个类别出现的概率 - 好的,就是这么工作的^_^
工作流程
- 准备阶段
确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。 - 训练阶段
计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计 - 应用阶段
使用分类器进行分类,输入是分类器和待分类样本,输出是样本属于的分类类别
属性特征
- 特征为离散值时直接统计即可(表示统计概率)
- 特征为连续值的时候假定特征符合高斯分布:g(x,n,u)
那么p(ak|yi)=g(xk,ni,ui)
Laplace校准(拉普拉斯校验)
当某个类别下某个特征划分没有出现时,会有P(a|y)=0,就是导致分类器质量降低,所以此时引入Laplace校验,就是对没类别下所有划分的计数加1。
遇到特征之间不独立问题
参考改进的贝叶斯网络,使用DAG
来进行概率图的描述
优缺点
朴素贝叶斯的优点:
- 对小规模的数据表现很好,适合多分类任务,适合增量式训练。
缺点: - 对输入数据的表达形式很敏感(离散、连续,值极大极小之类的)。
逻辑回归和线性回归
参考[2,3,4]
LR
回归是一个线性的二分类模型,主要是计算在某个样本特征下事件发生的概率
,比如根据用户的浏览购买情况作为特征来计算它是否会购买这个商品,抑或是它是否会点击这个商品。然后LR
的最终值是根据一个线性和函数再通过一个sigmoid
函数来求得,这个线性和函数权重与特征值的累加以及加上偏置求出来的,所以在训练LR
时也就是在训练线性和函数的各个权重值w
。
hw(x)=11+e−(wTx+b)
关于这个权重值w
一般使用最大似然法来估计,假设现在有样本{xi,yi},其中xi表示样本的特征,yi∈{0,1}表示样本的分类真实值,yi=1的概率是pi,则yi=0的概率是1−pi,那么观测概率为:
p(yi)=pyii∗(1−pi)1−yi
则最大似然函数为:
∏(hw(xi)yi∗(1−hw(xi))1−yi)
对这个似然函数取对数之后就会得到的表达式
L(w)=∑i(yi∗loghw(xi)+(1−yi)∗log(1−hw(xi)))=∑i(yi∗(wTxi)+log(1+ewTxi))
估计这个L(w)的极大值就可以得到w的估计值。
实际操作中一般会加个负号 改为求最小
所以求解问题就变成了这个最大似然函数的最优化问题,这里通常会采样随机梯度下降法和拟牛顿迭代法来进行优化
梯度下降法
LR
的损失函数为:
J(w)=−1NN∑i=1(yi∗log(hw(xi))+(1−yi)∗log(1−hw(xi)))
这样就变成了求min(J(w))
其更新w的过程为
w:=w−α∗▽J(w)w:=w−α∗1N∗N∑i=1((hw(xi)−yi)∗xi)
其中α为步长,直到J(w)不能再小时停止
梯度下降法的最大问题就是会陷入局部最优,并且每次在对当前样本计算cost
的时候都需要去遍历全部样本才能得到cost
值,这样计算速度就会慢很多(虽然在计算的时候可以转为矩阵乘法去更新整个w
值)
所以现在好多框架(mahout
)中一般使用随机梯度下降法,它在计算cost的时候只计算当前的代价,最终cost
是在全部样本迭代一遍之求和得出,还有他在更新当前的参数w的时候并不是依次遍历样本,而是从所有的样本中随机选择一条进行计算,它方法收敛速度快(一般是使用最大迭代次数),并且还可以避免局部最优,并且还很容易并行(使用参数服务器的方式进行并行)
w:=w−α∗((hw(xj)−yj)∗xi);j∈1 Nandrandomly
这里SGD
可以改进的地方就是使用动态的步长
α=0.04∗(1.0+n+i)+r
其他优化方法
- 拟牛顿法(记得是需要使用Hessian矩阵和cholesky分解)
- BFGS
- L-BFGS
优缺点:无需选择学习率α,更快,但是更复杂
关于LR的过拟合问题:
如果我们有很多的特性,在训练集上拟合得很好,但是在预测集上却达不到这种效果
- 减少feature个数(人工定义留多少个feature、算法选取这些feature)
- 正则化(为了方便求解,
L2
使用较多)
添加正则化之后的损失函数为: J(w)=−1N∑Ni=1(yi∗log(hw(xi))+(1−yi)∗log(1−hw(xi)))+λ||w||2
同时w的更新变为w:=w−α∗(hw(xj)−yj)∗xi)−2α∗wj
注意:这里的w0不受正则化影响
p
范数的求解:
||X||p={Count(xi≠0)ifp=0(n∑i|xi|p)1pifp≠0
关于LR的多分类:softmax
假设离散型随机变量Y的取值集合是{1,2,..,k},则多分类的LR为
P(Y=a|x)=exp(wa∗x)(∑ki=1(wi∗x));1<a<k
这里会输出当前样本下属于哪一类的概率,并且满足全部概率加起来=1
关于softmax和k个LR的选择
如果类别之间是否互斥(比如音乐只能属于古典音乐、乡村音乐、摇滚月的一种)就用softmax
否则类别之前有联系(比如一首歌曲可能有影视原声,也可能包含人声,或者是舞曲),这个时候使用k个LR更为合适
优缺点:
Logistic回归优点:
- 实现简单;
- 分类时计算量非常小,速度很快,存储资源低;
缺点:
- 容易欠拟合,一般准确度不太高
- 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
KNN算法
给一个训练数据集和一个新的实例,在训练数据集中找出与这个新实例最近的k个训练实例,然后统计最近的k个训练实例中所属类别计数最多的那个类,就是新实例的类
三要素:
- k值的选择
- 距离的度量(常见的距离度量有欧式距离,马氏距离等)
- 分类决策规则 (多数表决规则)
k值的选择
- k值越小表明模型越复杂,更加容易过拟合
- 但是k值越大,模型越简单,如果k=N的时候就表明无论什么点都是训练集中类别最多的那个类
所以一般k会取一个较小的值,然后用过交叉验证来确定
这里所谓的交叉验证就是将样本划分一部分出来为预测样本,比如95%训练,5%预测,然后k分别取1,2,3,4,5之类的,进行预测,计算最后的分类误差,选择误差最小的k
KNN的回归
在找到最近的k个实例之后,可以计算这k个实例的平均值作为预测值。或者还可以给这k个实例添加一个权重再求平均值,这个权重与度量距离成反比(越近权重越大)。
优缺点:
KNN算法的优点:
- 思想简单,理论成熟,既可以用来做分类也可以用来做回归;
- 可用于非线性分类;
- 训练时间复杂度为O(n);
- 准确度高,对数据没有假设,对outlier不敏感;
缺点:
- 计算量大;
- 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);
- 需要大量的内存;
KD树
KD树是一个二叉树,表示对K维空间的一个划分,可以进行快速检索(那KNN计算的时候不需要对全样本进行距离的计算了)
构造KD树
在k维的空间上循环找子区域的中位数进行划分的过程。
假设现在有K维空间的数据集T={x1,x2,x3,…xn},xi={a1,a2,a3..ak}
- 首先构造根节点,以坐标a1的中位数b为切分点,将根结点对应的矩形局域划分为两个区域,区域1中a1<b,区域2中a1>b
- 构造叶子节点,分别以上面两个区域中a2的中位数作为切分点,再次将他们两两划分,作为深度1的叶子节点,(如果a2=中位数,则a2的实例落在切分面)
- 不断重复2的操作,深度为j的叶子节点划分的时候,索取的ai 的i=j%k+1,直到两个子区域没有实例时停止
KD树的搜索
- 首先从根节点开始递归往下找到包含x的叶子节点,每一层都是找对应的xi
- 将这个叶子节点认为是当前的“近似最近点”
- 递归向上回退,如果以x圆心,以“近似最近点”为半径的球与根节点的另一半子区域边界相交,则说明另一半子区域中存在与x更近的点,则进入另一个子区域中查找该点并且更新”近似最近点“
- 重复3的步骤,直到另一子区域与球体不相交或者退回根节点
- 最后更新的”近似最近点“与x真正的最近点
KD树进行KNN查找
通过KD树的搜索找到与搜索目标最近的点,这样KNN的搜索就可以被限制在空间的局部区域上了,可以大大增加效率。
KD树搜索的复杂度
当实例随机分布的时候,搜索的复杂度为log(N),N为实例的个数,KD树更加适用于实例数量远大于空间维度的KNN搜索,如果实例的空间维度与实例个数差不多时,它的效率基于等于线性扫描。
后来自己有实现过KD树,可以看KNN算法中KD树的应用
SVM、SMO
对于样本点(xi,yi)以及svm的超平面:wTxi+b=0
- 函数间隔:yi(wTxi+b)
- 几何间隔:yi(wTxi+b)||w||,其中||w||为w的L2范数,几何间隔不会因为参数比例的改变而改变
svm的基本想法就是求解能正确划分训练样本并且其几何间隔最大化的超平面。