用开源Carrot2的后缀树算法做Web文本聚类
摘要:
采用基于Java的开源搜索结果聚合引擎,Carrot2 2.0 中的后缀树算法Carrot2 可以自动的把搜索结果归类到相应的语义类别中,这个功能是通过Carrot2一个现成的组件完成的,除此之外Carrot2 还包括了很多其他的搜索结果聚合聚类算法。因为没有做中文分词,也没有中文的Stopword,所以我们用英文测试,实现代码1SnippetTokenizersnippetTokenizer=n... 阅读全文
posted @ 2006-11-10 14:51 网际大鱼 阅读(6358) 评论(12) 推荐(0) 编辑