随笔分类 -  MACHINE LEARNING

摘要:Kmeans是一种简单的聚类方法,一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点; 2 遍历所有数据,将每个数据划分到最近的中心点,作为一个簇; 3 计算每个聚类的平均值,并作为新的中心点; 4 阅读全文
posted @ 2020-05-30 11:23 傅余生 阅读(1543) 评论(0) 推荐(0)
摘要:1. KNN算法概述 KNN属于分类算法,没有训练过程,新样本根据距离寻找最靠近样本的K个点,根据这K个点的分类确定新样本类别(选择K个点的多数分类)。 如下图,历史数据集有两类,红色三角形和蓝色正方形,现在需要判定绿色圆圈属于三角形还是正方形? 由图可见,若K值选择3,与圆圈最近的3个点中,有1个 阅读全文
posted @ 2020-05-27 20:21 傅余生 阅读(841) 评论(0) 推荐(0)
摘要:1. 贝叶斯定理 贝叶斯公式如下: 为B的先验概率,为B的类条件概率,为B的后验概率。 贝叶斯公式为我们提供了依据先验概率求后验概率的方法,在实际生活中,往往代表已知“结果”A那么“原因”B的概率, 先验概率往往指根据经验或历史样本中容易计算的“原因”概率。 2. 朴素贝叶斯分类 将贝叶斯公式应用于 阅读全文
posted @ 2020-05-27 09:51 傅余生 阅读(522) 评论(0) 推荐(0)
摘要:知乎上的文章写得很详细 https://zhuanlan.zhihu.com/p/77750026 https://zhuanlan.zhihu.com/p/31886934 SVM在解决线性可分的问题 点到超平面的距离: 因为需要最大化magins,所以优化目标:相当于 subject to:(保 阅读全文
posted @ 2020-05-25 09:47 傅余生 阅读(190) 评论(0) 推荐(0)
摘要:决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 一、信息熵(Information Entropy) 信息熵用于度量样本集合浓度,决策树的构建过 阅读全文
posted @ 2020-05-22 17:29 傅余生 阅读(712) 评论(0) 推荐(0)
摘要:一、Sigmod函数 线性回归的假设函数:,但在分类问题中需要求输入范围在(0,1),则需要为分类问题寻找另外假设函数。 Sigmod函数式: ,函数值域(0,1) 函数图像 该函数具有很强的鲁棒性,并且将函数的输入范围(∞,-∞)映射到了输出的(0,1)之间且具有概率意义。将一个样本输入到我们学习 阅读全文
posted @ 2020-05-21 13:52 傅余生 阅读(828) 评论(0) 推荐(0)
摘要:欠拟合:模型没有充分学习到数据集特征,不具有泛化能力。 过拟合:模型过分理解数据集特征,学习到训练上局部特征或噪声特征,以至于在测试集上表现不佳。 欠拟合原因:模型不够复杂,拟合函数的能力不足。 解决欠拟合:1. 添加特征,从数据中挖掘出更多的特征,有时候还需要对特征进行变换,使用组合特征和高次特征 阅读全文
posted @ 2020-05-19 11:04 傅余生 阅读(199) 评论(0) 推荐(0)
摘要:在学习线性回归,在基于均方误差最小化进行模型求解时,需要利用梯度下降的方式逐步逼近最优解。 线性回归的假设函数(一个特征的情况下):,为第i个样本值。 其中i代表样本数。 均方误差的代价函数(优化的目标函数):,m个样本值。 目的:确定参数使代价函数最小。 1、批量梯度下降(Batch Gradie 阅读全文
posted @ 2020-05-18 21:17 傅余生 阅读(344) 评论(0) 推荐(0)