2010年8月19日

(转)中文分词和TF-IDF

摘要: 中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。  TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广... 阅读全文

posted @ 2010-08-19 01:03 人飞 阅读(591) 评论(0) 推荐(0) 编辑

导航