中文分词和二元分词综合对比
摘要:
中文分词和二元分词综合对比 为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。 采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒; 从搜索结果来看,两者可以大致相同数量的搜索结果(显示结... 阅读全文
posted @ 2005-03-10 15:05 我要去桂林 阅读(3596) 评论(1) 推荐(0) 编辑