作者 finallyliuyu,转载请注明出处

前言:

研究生时期的最后一门作业是《统计机器学习》的阅读报告。为了让作业熠熠生辉,也同时是加深对某些混淆知识的理解,预计报告中包括以下几部分内容

1. 统计机器学习机的基本框架图

2.线性SVM的基本原理(主体部分)

  包括如何转化成数学上的凸优化问题,转化成对偶问题。(此部分已经完成,数学推导没有看懂,只知道个流程。如果要想看懂此部分的数学推导,需要有泛函和凸优化理论的基础

3.实验部分:

用libsvm进行文本分类。

1.在训练样本集不变的前提下,不断加大测试样本集的规模。测试 svm模型的VC维,即能够正确分类的文章的最大数目。在实验中具体实现为,当测试样本集规模达到何种程度时分类准确率《50%

2.在训练样本集合测试样本集均不变的前提下,调解特征维数,并且观察特征维数对分类准确率的影响

由于第一次使用libsvm,所以将基本命令写在下面

 

测试数据见lib svm 测试数据,可提供下载。访问libsvm官方网址,可以下载到很多UCI的数据库,本博文中给出的测试数据并非来自于UCI,而是将搜狗开放新闻分类语料库中的“C000013(健康类),C000024(军事)”经过处理,形成的libSVM要求的数据格式。文本预处理阶段(包括分词,提取特征词,建立文档向量模型,费了好大的牛劲哈。train.libsvm 中共202行数据,前101行数据是C000024(0.txt-100.txt)的VSM模型,后101行数据是对C000013(0.txt-100.txt)的VSM模型。test.libsvm共200篇文章,前100行数据是C000024(101.txt-200.txt)的VSM模型,后100行数据是对C000013(101.txt-200.txt)的VSM模型。文件可以通过Ultraedit查看

4。 对数回归分类,感知机分类

 对数回归,感知机分类,和SVM分类一样,都属于判别式分类器。这一对比模块的主要目的在于区别这三种模型,上学期弄对数回归分类的时候,对对数回归分类,感知机分类搞的就不太清楚,希望通过这次能够搞清楚

5。不同的分类特征词选择方法对特征词选择的影响

此部分主要实现Yiming Yang 1999年的论文 a Comparative Study on Feature Selection in Text Categorization,研究文本分类问题中的特征词选择方法,是为了启发文本聚类问题中的特征词选择方法。目前文本分类问题中的特征词选择方法已经趋于成熟如IG,MI,CHI,DF,TF权证,TF-IDF等等。可是聚类问题中的特征词选择方法尚未成熟,有发展空间。上学期我倒是想到了一种针对文本聚类问题的特征词选择方法,可是效果不好。

 

 

 

 

posted on 2010-08-03 21:44  finallyly  阅读(4679)  评论(2编辑  收藏  举报