随笔分类 -  文本分类

摘要:前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识。然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法:SMO算法(当然还有很多别的算法。libsvm使用的是SMO,SMO算法也是最高效和简单的),还有松 阅读全文
posted @ 2018-06-04 16:00 Shendu.CC 阅读(979) 评论(0) 推荐(3) 编辑
摘要:上一篇说到SVM需要求出一个最小的||w|| 以得到最大的几何间隔。 求一个最小的||w|| 我们通常使用 来代替||w||,我们去求解 ||w||2 的最小值。然后在这里我们还忽略了一个条件,那就是约束条件,在上一篇的公式(8)中的不等式就是n维空间中数据点的约束条件。只有在满足这个条件下,求解| 阅读全文
posted @ 2018-05-31 14:00 Shendu.CC 阅读(760) 评论(0) 推荐(0) 编辑
摘要:SVM 和线性分类器是分不开的。因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来。 所以要理解SVM首先要明白的就是线性可分和线性分类器。 可以先解释这张图,通过这张图就可以了解线性分类器了。 这是一 阅读全文
posted @ 2018-05-31 14:00 Shendu.CC 阅读(2252) 评论(0) 推荐(0) 编辑
摘要:前言: 经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的。于是开始逐一的去了解SVM的原理。 SVM 是在建立在结构风险最小化和VC维理论的基础上。所以这篇只介绍关于SVM的理论基础。 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特 阅读全文
posted @ 2018-05-09 18:02 Shendu.CC 阅读(1878) 评论(1) 推荐(0) 编辑
摘要:直接从特征提取,跳到了BoostSVM,是因为自己一直在写程序,分析垃圾文本,和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。 中间的博客待自己研究透彻后再补上吧。 因为获取垃圾文本的时候,发现垃圾文本不是简单的垃圾文本,它们具有多个特性: 1. 种类繁多,难有共同的特征 阅读全文
posted @ 2018-05-08 16:18 Shendu.CC 阅读(3669) 评论(0) 推荐(0) 编辑
摘要:前言: 上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行。然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了。 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重( 阅读全文
posted @ 2018-04-23 10:51 Shendu.CC 阅读(9748) 评论(3) 推荐(2) 编辑
摘要:前言: 上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。 之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选 阅读全文
posted @ 2018-04-09 17:55 Shendu.CC 阅读(21248) 评论(5) 推荐(6) 编辑
摘要:上一篇中,主要说的就是词袋模型。回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量。这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词,那这个 阅读全文
posted @ 2018-04-03 11:50 Shendu.CC 阅读(13437) 评论(0) 推荐(0) 编辑
摘要:接着上一篇。在正式的尝试使用文本分类算法分类文本的时候,我们得先准备两件事情: 一,准备适量的训练文本;二,选择合适的方法将这些训练文本进行表示(也就是将文本换一种方式表示) 大家都知道文本其实就是很多词组成的文章啊。所以很自然的就想到用一系列词来表示文本。比如我这篇文章,将其分词之后的结果就是: 阅读全文
posted @ 2018-03-31 16:58 Shendu.CC 阅读(1988) 评论(1) 推荐(2) 编辑
摘要:今天开始,就要认真开始对待文本分类,在此之前只是稀疏的看过一些博客,了解一下贝叶斯分类。之所以要学习文本分类,是因为我做的毕业设计就是关于文本分类和机器学习的。突然感觉到时间不太够用了,而摆在我面前的实际上是一个很浩大的工程,不得不抓紧时间开始研究。至于为什么毕业设计会选择文本分类算法,因为觉得现在 阅读全文
posted @ 2018-03-28 17:28 Shendu.CC 阅读(1431) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示