摘要:
一. 问题描述 每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素? 二. 研究意义 如果我们知道对收入高低起决定性的作用,或者哪些因素组合在一起也能增大收入的可能性,那可以帮助很多人少走弯路,朝着正确的方向努力,早日达到目标。 三. 数据 阅读全文
摘要:
一.PCA基础 线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据描述不重要的成分。即将主成分维度组成的向量空间作为低维空间,将高维数据投影到这个空间上就完成了降维的工作。 在 PCA中,数据从原来 阅读全文
摘要:
一.k均值聚类算法 对于样本集。"k均值"算法就是针对聚类划分最小化平方误差: 其中是簇Ci的均值向量。从上述公式中可以看出,该公式刻画了簇内样本围绕簇均值向量的紧密程度,E值越小簇内样本的相似度越高。 工作流程: k-均值算法的描述如下: 接下来是对于数据集testSet.txt的代码实现: 计算 阅读全文
摘要:
一.线性回归 回归的目的是预测数值型的目标值。最直接的办法是依据输入写成一个目标值的计算公式。 回归方程:y=a_1*x_1+a_2*x_2 其中的 a1 和 a2 称作回归系数,求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了,具体的做法是用回归系数乘以输入值,再 阅读全文
摘要:
一.AdaBoost 元算法的基本原理 AdaBoost是adaptive boosting的缩写,就是自适应boosting。元算法是对于其他算法进行组合的一种方式。 而boosting是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据 阅读全文
摘要:
一. SMO算法基础 支持向量就是离分隔超平面最近的那些点。分隔超平面是将数据集分开来的决策边界。 支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为 阅读全文