所以燃

Information Retrieval --- Document Processing

一、词条化Tokenizer。中文分词：正（逆）向最大匹配，基于词典的方法。

二、大小写归一化

三、去停用词：the a and;的得地

四、词形归并：am are is=>be car cars cars'=>car

五、词干还原：automate automatic automation=>automat

posted on 2013-12-16 17:55 Jizhiyuan 阅读(138) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

导航

公告