傅余生

2020年5月30日

摘要： Kmeans是一种简单的聚类方法，一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。算法原理 kmeans的计算方法如下： 1 随机选取k个中心点； 2 遍历所有数据，将每个数据划分到最近的中心点，作为一个簇； 3 计算每个聚类的平均值，并作为新的中心点； 4 阅读全文

posted @ 2020-05-30 11:23 傅余生阅读(1492) 评论(0) 推荐(0)

2020年5月27日

K最近邻(KNN)

摘要： 1. KNN算法概述 KNN属于分类算法，没有训练过程，新样本根据距离寻找最靠近样本的K个点，根据这K个点的分类确定新样本类别（选择K个点的多数分类）。如下图，历史数据集有两类，红色三角形和蓝色正方形，现在需要判定绿色圆圈属于三角形还是正方形？由图可见，若K值选择3，与圆圈最近的3个点中，有1个阅读全文

posted @ 2020-05-27 20:21 傅余生阅读(808) 评论(0) 推荐(0)

朴素贝叶斯(Naive Bayes)

摘要： 1. 贝叶斯定理贝叶斯公式如下：为B的先验概率，为B的类条件概率，为B的后验概率。贝叶斯公式为我们提供了依据先验概率求后验概率的方法，在实际生活中，往往代表已知“结果”A那么“原因”B的概率，先验概率往往指根据经验或历史样本中容易计算的“原因”概率。 2. 朴素贝叶斯分类将贝叶斯公式应用于阅读全文

posted @ 2020-05-27 09:51 傅余生阅读(485) 评论(0) 推荐(0)

2020年5月25日

支持向量机(Support Vector Machine)

摘要：知乎上的文章写得很详细 https://zhuanlan.zhihu.com/p/77750026 https://zhuanlan.zhihu.com/p/31886934 SVM在解决线性可分的问题点到超平面的距离：因为需要最大化magins，所以优化目标：相当于 subject to：（保阅读全文

posted @ 2020-05-25 09:47 傅余生阅读(178) 评论(0) 推荐(0)

2020年5月22日

决策树(Decision Tree)

摘要：决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。一、信息熵（Information Entropy）信息熵用于度量样本集合浓度，决策树的构建过阅读全文

posted @ 2020-05-22 17:29 傅余生阅读(685) 评论(0) 推荐(0)

2020年5月21日

逻辑回归(Logistic Regression)

摘要：一、Sigmod函数线性回归的假设函数:，但在分类问题中需要求输入范围在（0，1），则需要为分类问题寻找另外假设函数。 Sigmod函数式：，函数值域（0，1）函数图像该函数具有很强的鲁棒性,并且将函数的输入范围(∞,-∞)映射到了输出的(0,1)之间且具有概率意义。将一个样本输入到我们学习阅读全文

posted @ 2020-05-21 13:52 傅余生阅读(783) 评论(0) 推荐(0)

2020年5月19日

欠拟合and过拟合

摘要：欠拟合：模型没有充分学习到数据集特征，不具有泛化能力。过拟合：模型过分理解数据集特征，学习到训练上局部特征或噪声特征，以至于在测试集上表现不佳。欠拟合原因：模型不够复杂，拟合函数的能力不足。解决欠拟合：1. 添加特征，从数据中挖掘出更多的特征，有时候还需要对特征进行变换，使用组合特征和高次特征阅读全文

posted @ 2020-05-19 11:04 傅余生阅读(160) 评论(0) 推荐(0)

2020年5月18日

批量梯度下降and随机梯度下降

摘要：在学习线性回归，在基于均方误差最小化进行模型求解时，需要利用梯度下降的方式逐步逼近最优解。线性回归的假设函数（一个特征的情况下）：，为第i个样本值。其中i代表样本数。均方误差的代价函数（优化的目标函数）：，m个样本值。目的：确定参数使代价函数最小。 1、批量梯度下降（Batch Gradie 阅读全文

posted @ 2020-05-18 21:17 傅余生阅读(313) 评论(0) 推荐(0)

2020年5月17日

只有2%的人，可以控制未来。

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜