近日,在论坛发帖介绍自己的语料库。
第一个版本的帖子内容如下:
http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
提供语料库下载链接
第二个版本的帖子内容如下:
我自己整理的一个中午新闻分类语料库,已经上传提供给和我一样对NLP狂热的业余爱好者下载。详情见
http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
这个语料库和搜狗分类新闻语料库比起来,确实谈不上标准,但是可以做些小实验玩玩之类的。
第三个版本:
中文新闻文本分类语料库资源已经上传到博客园,网友可以自由下载。
希望这批语料能够作为搜狗开放语料库的补充,仅供网友学习研究交流使用,禁止任何商业用途。
说明:此语料库共有新闻39247篇,和搜狗语料库新闻相比,该语料库的新闻以长新闻为主。
此语料库储存在MSSQL2000数据库中,标题和新闻正文占有不同的字段。
分为 历史,军事,文化,读书,教育,IT,娱乐,社会与法 八个类别。
新闻来源于 凤凰,网易,新浪,腾讯的若干个版面。
下载地址及免责声明,语料库内部格式等详细说明见http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
感悟: 第一版,仿佛是广告贴,一般人不会点进去;第二版,虽然对语料库有了些介绍,但是介绍语言不过专业,介绍的也不够具体,没有涉及到这个语料库的潜在使用者所关心的问题。
第三个版本,在综合各个网友提问的基础上进行了改进。所以,如果想让别人了解你的工作,那么就应该多花心思考虑下,如何能够将自己的工作,用凝练,并且朴实语言表达出来。