摘要:
一、决策树模型 决策树(decision tree)是一种常用的机器学习方法,是一种描述对实例进行分类的树形结构。 决策树是一种常用的机器学习方法,以二分类为例,假设现在我们要对是否买西瓜进行判断和决策,我们会问一些问题,根据回答,我们决断是买还是不买,或者还拿补丁主意,这时会继续问问题,直到可以确 阅读全文
摘要:
四、逻辑回归 6、逻辑回归实现二分类 (1)对于每个样本x利用线性回归模型得到输出z: (2)将线性回归模型的输出z利用sigmoid函数得到概率: (3)构造损失函数: (4)损失函数关于向量W=( w0 , ... , wd )的函数,求损失函数的梯度: 由于: 所以: 由于: 所以: 由于: 阅读全文
摘要:
四、逻辑回归 5、梯度下降法 (1)梯度解释 偏导数:简单来说是对于一个多元函数,选定一个自变量并让其他自变量保持不变,只考察因变量与选定自变量的变化关系。 梯度:梯度的本意是一个向量,由函数对每个参数的偏导组成,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快, 阅读全文
摘要:
四、逻辑回归 逻辑回归是属于机器学习里面的监督学习,它是以回归的思想来解决分类问题的一种非常经典的二分类分类器。由于其训练后的参数有较强的可解释性,在诸多领域中,逻辑回归通常用作baseline模型,以方便后期更好的挖掘业务相关信息或提升模型性能。 1、逻辑回归思想 当一看到“回归”这两个字,可能会 阅读全文
摘要:
三、线性回归 5、线性回归训练流程 线性回归模型训练流程如下: 6、线性回归的正规方程解 对线性回归模型,假设训练集中 m个训练样本,每个训练样本中有 n个特征,可以使用矩阵的表示方法,预测函数可以写为: Y = hetaX 其损失函数可以表示为: 其中,标签 Y 为 mx1 的矩阵,训练特征 X 阅读全文
摘要:
一、预备知识 1、凸函数 凸函数:对于一元函数f(x),如果对于任意tϵ[0,1]均满足 f(tx1+(1−t)x2) ≤ tf(x1)+(1−t)f(x2) 。 凸函数特征: (1)凸函数的割线在函数曲线的上方。 (2)凸函数具有唯一的极小值,该极小值就是最小值。也就意味着我们求得的模型是全局最优 阅读全文
摘要:
一、K-means算法原理 k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各 阅读全文
摘要:
一、朴素的贝叶斯算法原理 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性。 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率 阅读全文
摘要:
1.感知器算法原理 两类线性可分的模式类:,设判别函数为:。 对样本进行规范化处理,即类样本全部乘以(-1),则有: 感知器算法通过对已知类别的训练样本集的学习,寻找一个满足上式的权向量。 2.算法步骤 (1)选择N个分属于和类的模式样本构成训练样本集{ X1, …, XN }构成增广向量形式,并进 阅读全文
摘要:
1.4 Pandas速成 Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。 阅读全文