机器学习知识点(一)
1. 拟合
- 特征越多,拟合出的模型越准确,但是当特征过多的时候,则出现过拟合。所以,消除过拟合的最基本方式是:**(1)尽量减少选择的特征数量; (2)正则化 **
- 正则化是一种常见的防止过拟合的方法,一般原理是在代价函数后面加上一个对参数的约束项,这个约束项被称作正则化项。
- 损失函数(Loss function):是定义在单个样本的,算的是一个样本的误差。
代价函数(Cost function):是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数: 代价函数+正则化项
损失函数或代价函数代表拟合结果的好坏。损失函数越小,就代表模型拟合的越好。
风险函数(risk function): 风险函数是损失函数的期望,由于我们的输入输出(X,Y)遵循一个联合分布,但这个联合分布是未知的,所以无法计算。通过历史数据,也就是训练集,f(x)关于训练集的平均损失称作经验风险。
在实际问题中,我们不仅要经验风险最小化,还要让结构风险最小化。定义一个函数J(f),这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化,常用的有L1,L2范数。 - 回归有线性回归和非线性回归。回归一般指线性回归,是求最小二乘解的过程。总的来说,回归是拟合的一种方法。
2. 训练和学习
- 机器学习中的学习,就是根据训练样本,猜测函数的过程。
- 集成学习方法。把性能较低的多种弱学习方法,通过适当组合而形成高性能的强学习方法,称为集成学习方法。目前有两种集成学习法,一种是多个弱学习方法独立进行再学习的Bagging学习法,一种是多个弱学习方法依次进行再学习的Boosting学习法。
- 机器学习 = 模型 + 策略 + 算法。
模型可以是函数,也可以是概率分布。策略可以是平方和最小。算法可以是求导,EM算法等。 - 超参数(hyper parameter)。超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
3. 分类
- K近邻算法工作原理。存在一个训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
- 熵与决策树。
熵可以看作是随机变量的平均不确定度的度量。在平均意义下,它是为了描述该随机变量所需的比特数。
在划分数据集之前和之后信息发生的变称为信息增益。计算信息增益,为了在做特征选择时找出需要的特征。
数据的划分。数据的划分,依据信息增益,而信息增益的核心在于计算信息,而信息是概率的函数。所以,数据的划分落脚点还是概率。牢牢抓住划分之后的概率,对概率敏感,才能从容的计算出信息增益。
数据的划分一般分为下面几个步骤:
第一步:按照类别划分。
第二步:每个类别有多个特征值,每个特征值的出现是有概率的。
第三步:牢记,熵就是概率的函数。根据概率计算熵。 - Sigmoid函数是一个符号函数,它可以将变量映射到0,1之间。
- 朴素贝叶斯分类器。“朴素”,是因为整个形式化过程只做最原始、最简单的假设。这些假设包括:
(1)各个特征之间相互独立。
(2)每个特征同等重要。 - Logistic回归(非线性回归)。
什么是线性回归?用一条直线对训练数据进行拟合的过程,叫做回归。这条直线被称为最佳拟合直线。
Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法的效果相当,但占用更少的计算资源。此外,随机梯度上升是一个在线算法,它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批处理运算。
4. 回归
-
局部加权线性回归(Locally Weighted Linear Regression)。特征的选择对学习算法的性能至关重要,LWR对特征集的要求不是非常的严格。对有些数据,与其使用所有的点,可能还不如使用要预测的值的局部的几个训练数据点好,这就是局部加权回归的思想。
-
矩阵分解。特征分解,SVD分解......
-
降维。如果有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息。
降维的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。
设P是一组基按行组成的矩阵。优化目标即寻找一个矩阵P,使协方差矩阵可对角化,并且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维将到了K维并满足上述优化条件。 -
频率学派认为,随机是系统客观而本质存在的属性,决定随机变量分布的参数虽然我们无法直接预测到,但参数是客观确定的。
贝叶斯学派认为,随机是主观的,不是系统固有的属性,之所以存在随机,是因为掌握的信息量不足以完全消除不确定性,概率分布的参数不是固定不变的,而是随着观察者掌握的信息量不同而不同。 -
聚类。聚类是一种无监督的学习,它将相似的对象归到同一个簇中,簇内的对象越相似,聚类的效果越好。
-
关联分析。从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式,频繁项集或者关联规则。频繁项集是经常出现在 一快的物品的集合,关联规则则按时两种物品之间存在很强的关系。
支持度。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。
Apriori。Apriori原理是说如果一个元素项是不频繁的,那么那些包含该元素的超集也是不频繁的。Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来形成更大的集合。 -
FP-growth算法。
FP-growth算法是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集,但不能发现数据之间的关联规则。 -
PCA。PCA