作者:finallyly 出处:博客园 (转载请注明 作者和出处)

前言:

感谢dudu和博客园的支持,我于2010年10月曾在博客园的个人博客中发布了个人整理的汉语新闻分类语料,以及文本分类流程程序。 历时两年收到了广大网友的支持、批评和指正。现在面临毕业,所以对自己硕士阶段的工作进行了部分开源。

文本语料库(包括中英文新闻)的详细说明以及下载地址为: http://www.datatang.com/data/13484

文本分类程序最新版的详细说明以及下载地址为: http://www.datatang.com/data/13483

文本分类的中间表达形式VSM模型的详细说明以及下载地址为:

(1)英文语料的VSM模型: http://www.datatang.com/data/13486

(2)中文语料的VSM模型: http://www.datatang.com/data/13485

 同时也欢迎大家关注 中科院自动化所“自动化学科创新方法课题”数据专区的其他数据,如有数据需求,欢迎下载,更欢迎留下您宝贵的反馈意见。

关于文本分类程序说明,以及语料说明的博文地址为: http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html

 我们还会开源更多的资源和程序,如果您对中文DBLP感兴趣,欢迎关注我的博客园博客,以及我们在数据堂建立的个人数据专区。专区用于资源共享,博客将会给出相应的算法设计,和代码使用说明。

同时欢迎大家关注 

 http://weibo.com/autoinnovation

 

posted on 2012-01-15 09:45  finallyly  阅读(10972)  评论(23编辑  收藏  举报