随笔 - 404  文章 - 0  评论 - 1037  阅读 - 136万 

最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。

(注:转载请注明作者和出处 作者:finallyliuyu  出处:博客园)

适用人群:文本分类初学者、新手、菜鸟、业余爱好者

目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的;

         2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借助于此平台可以对书本上的一些关于分类器、特征词选择算法的结论进行验证;

        3.写给我自己,体验 “the magic of mathematics” 。

1.获取语料库

方法一:搜狗2008版语料库;处理程序见《菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库

方法二:finallyliuyu在博客园空间提供的语料库参见 《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二

2. 文本分类系统设计框架图

 

预处理过程流程图

QQ截图未命名

分类模块流程图:

QQ截图未命名

 

 

3. 各部分代码讲解

预处理模块

3.1建立词典

3.2全局DF特征词选择算法

3.3局部DF特征词选择算法或者按类别DF特征词选择算法

3.4卡方特征词选择算法

3.5信息增益法以及点互信息法

3.6 VSM模型建立方法

分类模块

3.7 KNN分类算法

3.8 准确率,召回率,F值计算

 

4.  程序调用说明:

4.1 文本分类step by step 1

4.2 文本分类 step by step 2

 

 

 5。 对分类问题特征词选择算法的一点见解(重点推荐)

6。资源下载(注意右键点击下载地址用迅雷软件方可下载):

空间提供方:博客园。再次感谢博客园团队DUDU

实验中用到的语料库 下载地址 注意:语料库为MSSQL2000备份格式,如何还原请大家自己查阅相关资料,网络上有很多这方面的知识也就不赘述了。

程序资源   下载地址

posted on   finallyly  阅读(22798)  评论(61编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
点击右上角即可分享
微信分享提示