12 2014 档案
摘要:一、基本知识 1、分隔超平面(separating hyperplane) 分隔超平面,也就是分类的决策边界,分布在超平面一侧的所有数据点属于某个类别,而分布在另一侧的数据属于另一个类别 2、间隔(margin) 数据点到超平面的距离 (1)函数间隔 用z标记:z=0时,是超平面上的点; 如果z>0
阅读全文
摘要:一、PCA(Principal Component Analysis) 主成分分析,数据从原来的坐标系转换到新的坐标系,只保留新坐标系中的前面几个坐标轴,即对数据进行了降维处理 1、算法描述 (1)第一个新坐标轴:原数据集中方差最大的方向 (2)第二个新坐标轴:与第一个新坐标轴正交且具有最大方差的方
阅读全文
摘要:1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇 2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出 3、分类与回归: 分类
阅读全文
摘要:一、聚类算法 1、常见的聚类算法(待) 二、K均值 1、步骤 (1)随机选取K个质心 (2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇 (3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心 (4)重复(2)-
阅读全文
摘要:一、拟合问题 1、什么叫做拟合? (x,y)直接的关系可以用一条线(直线或者曲线)表达,我们的目标就是找到这一条线,找到线的关键就是求取参数 2、公式 单特征,ω代表参数,y(x,w)是估计值,t是实际值 3、如何求取参数ω?三种方法: (1)确定性方法:将参数w和t看成确定性的量,只是值不知道而已
阅读全文
摘要:一、数学基础 1、先验概率,又称边缘概率: 2、后验概率,又称条件概率 条件概率(非独立事件才会遇到条件概率) P(A,B)=P(A)*P(B|A) 例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率 P(B|A)=P(A,
阅读全文
摘要:决策书既可以用于分类也可以用于回归分析,本文的决策书仅针对与分类 一、基本知识 1、什么是分类决策树? 分类决策树模型是一种描述对实例进行分类的树形结构。由结点和有向边组成,结点分为内部结点和叶结点,内部结点表示特征,叶节点表示类,有向边则表示某一个特征的取值 2、分类决策树学习算法的过程? (1)
阅读全文
摘要:之前一直在linux环境下使用python,作为一枚小菜还是更喜欢windows。我使用python主要是进行科学计算,安装软件、搭建环境遇到了非常多的问题,特此总结。 一、python安装 版本:2.7.8,一路next便好 二、numpy、scipy安装 numpy:numpy-1.9.1-wi
阅读全文

浙公网安备 33010602011771号