摘要: 在支持向量机系列的前两篇中,介绍了一下完全线性可分向量机的构建过程,本篇将在此基础上介绍一下不完全线性可分的情况下实现支持向量机软间隔最大化过程。 1.线性分类时的两种情况 情况一: 考虑下面这张图中的情况,这些数据点是完全线性可分的,蓝色点与绿色点两类,分割线为紫色实直线 ​ 如果按完全线性可分的 阅读全文
posted @ 2019-05-18 16:36 hgz_dm 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 在上一篇博客中,较为详细的介绍了在数据完全线性可分的情况下,构建SVM模型的目标,并将构建目标转化为最大化几何距离的优化过程,本篇就将介绍具体优化时的计算过程。还是一样的,先推荐几篇不错的博文,大家也可以参考链接中的文章学习。 关于凸优化问题 http://www.360doc.com/conten 阅读全文
posted @ 2019-05-18 16:35 hgz_dm 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 最初学习、理解支持向量机时,有点费劲,参考了一些不错的书籍和博客,这里推荐一下: 1.支持向量机简介 支持向量机(Support Vector Machine,SVM)是一种二类分器,只支持两种类别的分类,不过在一些场合下可以将多个SVM串联起来,达到多分类的目的,下面先从二维情况入手,说明一下SV 阅读全文
posted @ 2019-05-18 16:34 hgz_dm 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 在很多的应用中,属性集与类别之间的关系是不确定的,换句话说,尽管测试样本的属性值与训练样本相同,但是也不一定能正确的预测其类别,其中一个原因是噪声的存在,另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻,之所以称为“朴素”贝叶斯方法,是因为在分类时,假定了“各变量间相互独立” 阅读全文
posted @ 2019-05-18 16:33 hgz_dm 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 最邻近分类是分类方法中比较简单的一种,下面对其进行介绍 1.模型结构说明 最邻近分类模型属于“基于记忆”的非参数局部模型,这种模型并不是立即利用训练数据建立模型,数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候,找出和其距离最接近的个样例,以其中数量最多的类别作为该样例的类预测结果。 最 阅读全文
posted @ 2019-05-18 16:31 hgz_dm 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 在《分类:基于规则的分类技术》中已经比较详细的介绍了基于规则的分类方法,RIPPER算法则是其中一种具体构造基于规则的分类器的方法。在RIPPER算法中,有几个点是算法的重要构成部分,需要强调一下 规则排序方式 RIPPER算法中采用的仍然是基于类的规则排序方式,不过独特的地方是,它先将各个类按频率 阅读全文
posted @ 2019-05-18 16:29 hgz_dm 阅读(3908) 评论(0) 推荐(0) 编辑
摘要: 最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。 1. 理论基础——大数定理与中心极限定理 在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心极限定理,后面会用到。这里我就不以数 阅读全文
posted @ 2019-05-18 16:26 hgz_dm 阅读(15590) 评论(4) 推荐(2) 编辑
摘要: 探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型 阅读全文
posted @ 2019-05-18 16:24 hgz_dm 阅读(3442) 评论(0) 推荐(0) 编辑
摘要: 数据预处理过程会占用很多时间,虽然麻烦但也是必不可少且非常重要的一步。在数据能用于计算的前提下,我们希望数据预处理过程能够提升分析结果的准确性、缩短计算过程,这是数据预处理的目的。本文只说明这些预处理方法的用途及实施的过程,并不涉及编程方面内容,预处理的过程可以用各种各样的语言编程实现来实现。我个人 阅读全文
posted @ 2019-05-18 16:22 hgz_dm 阅读(777) 评论(0) 推荐(0) 编辑
摘要: (自己的认知与理解有限,文中错误、不当之处还请诸位不吝指出,大家共同进步) 数据是重要、应该被充分利用的,这一点大家都是认同的,就像我们的个人信息(尤其是手机号)被肆意的售卖,各种推销、诈骗电话屡见不鲜,虽然我们对此大为光火,但是对推销员和诈骗犯来说,人家确实利用到了数据,而且总能钓上几条鱼。作为一 阅读全文
posted @ 2019-05-18 16:17 hgz_dm 阅读(325) 评论(0) 推荐(0) 编辑