任务

 算法:DF:http://blog.sina.com.cn/s/blog_4d1f33470100sjuf.html
TF-IDF:http://www.cnblogs.com/lovebread/archive/2009/11/23/1609118.html 

实践:利用hanlp工具对文本(sohu-output-before-split文件)分词,在统计每个分词的词频,取出排名前N的词语。N可任意
http://hanlp.linrunsoft.com/doc/_build/html/segment.html
posted @ 2017-04-22 16:18  wmxl  阅读(130)  评论(0编辑  收藏  举报