机器学习总结

机器学习相关知识

写在前面的话

保持怀疑的态度（在全新的数据集上测试分类器）
天下没有免费的午餐（没有适用的最好学习方法，具体问题具体对待）
正确对待缺失值，不同参数的设置可能会对结果产生不同的影响
不同算法都有对应的假设
数据挖掘的结果总会误导人，保持求真的态度

数据类型

连续型
离散型
标称型

概念

离散化
归一化
正则化

度量指标

欧几里得距离
以$R$为实数域，对于任意一个正整数n，实数的n元组的全体构成了R上的一个n维向量空间，用 $R^n$ 来表示。 $R^n$ 中的元素可以写成 $ X=(x_1,x_2,...x_n)$ .
欧式范数定义 $R^n$ 上的距离函数为:

\[d(x,y)=\Vert x-y \Vert =\sqrt{\displaystyle \sum_{i=1}^n(x_i-y_i)^2} \]

可以使用上面的公式来度量n维空间中任意两点之间的距离。这也是在推荐系统中度量样本点的相似程度的一种方式。

余弦相似度
余弦相似度是基于n维空间向量的。所谓向量就是在向量的空间中的坐标原点指向该空间某一个点的度量表示。n维空间由n条互相正交的基向量构成，彼此无关，也是构成整个向量空间的基础结构。我们能够比较直观理解的是三维向量，超过三维就比较难以理解了。
点积对于任意两个向量 x、y 点积<x,y>定义为

\[<x,y>=\displaystyle\sum_{i=1}^nx_iy_i \]

向量长度 定义为

\[\Vert x \Vert =\sqrt{<x,x>}=\sqrt{\displaystyle \sum_{i=1}^n(x_i)^2} \]

余弦相似度 定义为

\[cos(\theta)= \frac{ A \bullet B}{\Vert A \Vert \Vert B \Vert} =\frac{\displaystyle \sum_{i=1}^nA_i \times B_i}{\sqrt{\displaystyle \sum_{i=1}^n(A_i)^2 \times \displaystyle \sum_{i=1}^n(B_i)^2}}\]

越相似二者夹角越小越趋向于1，若两向量朝逆方向延伸，则度量值趋向于-1 可以明显的从数值中看到趋势。

皮尔逊距离

模型评估

模型评估帮助我们找到最佳的模型来代表给定的数据集并且能够选择出的模型在未来的未知数据中取得较好的效果。在原来的训练集合上来评估一个模型的好坏是不太合适的，因为这样可能会造成过拟合的现象，也就是说可能会因为训练集某些隐含的因子使得这个分类模型有很好的准确率，但是当我们应用这个模型到新的数据集上就不一定有同样的结果。这就是过拟合的现象，没有在新的数据集上获得同样的效果（模型的泛化能力）。所以我们需要引入没有污染过（任何经过训练的数据我们称为被污染过的数据）进行测试。这里有两种方式进行评估。

Hold-out（这种方式针对大的数据集，把数据分成三份）
- 训练集构建模型
- 验证集细化模型参数、选择最佳模型
- 测试集 衡量模型的性能这部分数据不参与前面两个步骤
Cross-Validation 针对数据较少，可以采用交叉验证的方式取得一个比较稳定的平均值。常用的k-fold 也是就是所谓的k折交叉验证方式，把数据集合分成k份，每次选择其中一份作为测试集其余的作为训练集，重复k次，最后取得每次结果的平均值。

分类评估

Confusion Matrix

混淆矩阵用来描述正确分类和错误分类的各个指标。下面是一个二分类问题混淆矩阵的实例。

Accuracy准确率 : the proportion of the total number of predictions that were correct. 准确率
Positive Predictive Value or Precision正确率 : the proportion of positive cases that were correctly identified.
Negative Predictive Value : the proportion of negative cases that were correctly identified.
Sensitivity or Recall敏感度召回率: the proportion of actual positive cases which are correctly identified.
Specificity 特异性: the proportion of actual negative cases which are correctly identified. 特异性

ROC Chart

回归评估

Root Mean Squared Error
均方差用来衡量回归模型中的错误率，注意不同模型计算时需要注意度量单位的统一。

\[RMSE=\sqrt{\frac{\displaystyle \sum_{i=1}^n(p_i-a_i)^2}{n}} \]

\[a=actual \ target \]

\[p=predicted \ target \]

Relative Squared Error

\[RSE=\frac{\displaystyle \sum_{i=1}^n(p_i-a_i)^2}{\displaystyle \sum_{i=1}^n(\overline a-a_i)^2} \]

Mean Absolute Error

\[MAE=\frac{\displaystyle \sum_{i=1}^n \vert p_i-a_i \vert }{n} \]

Relative Absolute Error

\[RAE=\frac{\displaystyle \sum_{i=1}^n \vert p_i-a_i \vert }{\displaystyle \sum_{i=1}^n \vert \overline a-a_i \vert } \]

Coefficient of Determination

优化方法

最小二乘法
梯度上升（下降）寻求最大（最小）值
梯度上升法基于的思想是：要找到函数的最值最好的方法就是沿着函数的地图方向进行。从初始点进行最值寻找的过程中需要计算当期点的梯度，并且沿着这个方向移动，具体移动的步伐通过步长来设定。到达下一个点之后重新计算梯度不迭代直到满足条件。（寻找到最优值或者到达误差允许的范围内。）
随机梯度
随机梯度在针对大数据集的时候显得特别有用，虽然损失了一定的精度，但是换来了较快的收敛速度，达到一个与全局最优较近位置的点。它是针对每个点选择盖点最优的方向进行移动，不一定要对整个数据集集合操作就可能到达收敛了。而BGD（批处理梯度下降）在每一次梯度的更新操作中需要对整个数据集进行计算，在大数据处理过程中无疑增大了计算量。
最大似然估计
风刮的