12 2014 档案

摘要:一、基本知识 1、分隔超平面(separating hyperplane) 分隔超平面,也就是分类的决策边界,分布在超平面一侧的所有数据点属于某个类别,而分布在另一侧的数据属于另一个类别 2、间隔(margin) 数据点到超平面的距离 (1)函数间隔 用z标记:z=0时,是超平面上的点; 如果z>0 阅读全文
posted @ 2014-12-25 12:26 李闹闹童鞋 阅读(224) 评论(0) 推荐(0)
摘要:一、PCA(Principal Component Analysis) 主成分分析,数据从原来的坐标系转换到新的坐标系,只保留新坐标系中的前面几个坐标轴,即对数据进行了降维处理 1、算法描述 (1)第一个新坐标轴:原数据集中方差最大的方向 (2)第二个新坐标轴:与第一个新坐标轴正交且具有最大方差的方 阅读全文
posted @ 2014-12-25 01:44 李闹闹童鞋 阅读(274) 评论(0) 推荐(0)
摘要:1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇 2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出 3、分类与回归: 分类 阅读全文
posted @ 2014-12-24 02:05 李闹闹童鞋 阅读(223) 评论(0) 推荐(0)
摘要:一、聚类算法 1、常见的聚类算法(待) 二、K均值 1、步骤 (1)随机选取K个质心 (2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇 (3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心 (4)重复(2)- 阅读全文
posted @ 2014-12-24 01:38 李闹闹童鞋 阅读(179) 评论(0) 推荐(0)
摘要:一、拟合问题 1、什么叫做拟合? (x,y)直接的关系可以用一条线(直线或者曲线)表达,我们的目标就是找到这一条线,找到线的关键就是求取参数 2、公式 单特征,ω代表参数,y(x,w)是估计值,t是实际值 3、如何求取参数ω?三种方法: (1)确定性方法:将参数w和t看成确定性的量,只是值不知道而已 阅读全文
posted @ 2014-12-22 23:17 李闹闹童鞋 阅读(400) 评论(0) 推荐(0)
摘要:一、数学基础 1、先验概率,又称边缘概率: 2、后验概率,又称条件概率 条件概率(非独立事件才会遇到条件概率) P(A,B)=P(A)*P(B|A) 例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率 P(B|A)=P(A, 阅读全文
posted @ 2014-12-19 17:56 李闹闹童鞋 阅读(334) 评论(0) 推荐(0)
摘要:决策书既可以用于分类也可以用于回归分析,本文的决策书仅针对与分类 一、基本知识 1、什么是分类决策树? 分类决策树模型是一种描述对实例进行分类的树形结构。由结点和有向边组成,结点分为内部结点和叶结点,内部结点表示特征,叶节点表示类,有向边则表示某一个特征的取值 2、分类决策树学习算法的过程? (1) 阅读全文
posted @ 2014-12-19 12:24 李闹闹童鞋 阅读(863) 评论(0) 推荐(0)
摘要:之前一直在linux环境下使用python,作为一枚小菜还是更喜欢windows。我使用python主要是进行科学计算,安装软件、搭建环境遇到了非常多的问题,特此总结。 一、python安装 版本:2.7.8,一路next便好 二、numpy、scipy安装 numpy:numpy-1.9.1-wi 阅读全文
posted @ 2014-12-08 11:29 李闹闹童鞋 阅读(3207) 评论(0) 推荐(0)