摘要:
Kmeans是一种简单的聚类方法,一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点; 2 遍历所有数据,将每个数据划分到最近的中心点,作为一个簇; 3 计算每个聚类的平均值,并作为新的中心点; 4 阅读全文
摘要:
1. KNN算法概述 KNN属于分类算法,没有训练过程,新样本根据距离寻找最靠近样本的K个点,根据这K个点的分类确定新样本类别(选择K个点的多数分类)。 如下图,历史数据集有两类,红色三角形和蓝色正方形,现在需要判定绿色圆圈属于三角形还是正方形? 由图可见,若K值选择3,与圆圈最近的3个点中,有1个 阅读全文
摘要:
1. 贝叶斯定理 贝叶斯公式如下: 为B的先验概率,为B的类条件概率,为B的后验概率。 贝叶斯公式为我们提供了依据先验概率求后验概率的方法,在实际生活中,往往代表已知“结果”A那么“原因”B的概率, 先验概率往往指根据经验或历史样本中容易计算的“原因”概率。 2. 朴素贝叶斯分类 将贝叶斯公式应用于 阅读全文
摘要:
知乎上的文章写得很详细 https://zhuanlan.zhihu.com/p/77750026 https://zhuanlan.zhihu.com/p/31886934 SVM在解决线性可分的问题 点到超平面的距离: 因为需要最大化magins,所以优化目标:相当于 subject to:(保 阅读全文
摘要:
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 一、信息熵(Information Entropy) 信息熵用于度量样本集合浓度,决策树的构建过 阅读全文
摘要:
一、Sigmod函数 线性回归的假设函数:,但在分类问题中需要求输入范围在(0,1),则需要为分类问题寻找另外假设函数。 Sigmod函数式: ,函数值域(0,1) 函数图像 该函数具有很强的鲁棒性,并且将函数的输入范围(∞,-∞)映射到了输出的(0,1)之间且具有概率意义。将一个样本输入到我们学习 阅读全文
摘要:
欠拟合:模型没有充分学习到数据集特征,不具有泛化能力。 过拟合:模型过分理解数据集特征,学习到训练上局部特征或噪声特征,以至于在测试集上表现不佳。 欠拟合原因:模型不够复杂,拟合函数的能力不足。 解决欠拟合:1. 添加特征,从数据中挖掘出更多的特征,有时候还需要对特征进行变换,使用组合特征和高次特征 阅读全文
摘要:
在学习线性回归,在基于均方误差最小化进行模型求解时,需要利用梯度下降的方式逐步逼近最优解。 线性回归的假设函数(一个特征的情况下):,为第i个样本值。 其中i代表样本数。 均方误差的代价函数(优化的目标函数):,m个样本值。 目的:确定参数使代价函数最小。 1、批量梯度下降(Batch Gradie 阅读全文
摘要:
统计学中,一般将变量与变量之间的关系划分为函数关系和相关关系。 函数关系:因变量与自变量之间存在函数式关系。当一个变量或几个变量取一定的值时,另一个变量有确定值。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S。 相关关系:因变量与自变量之间存在非严格的依存关系。当一个变量或几个变量取 阅读全文
摘要:
一、卡方分布 1. 定义 设 X1..Xn是服从标准正态分布的随机变量,则称统计量 服从自由度为n的卡方分布(标准正态分布随机变量的平方和),记为,其中v称为自由度。 卡方分布期望和方差: 。 2. 外形(取决于自由度) 3. 统计量计算 , 为实际频数,为期望频数。 4. 分布的两个主要用途 分布 阅读全文