中文分词和二元分词综合对比

为了测试中文分词和二元分词的差异，现将初步的测试数据做了对比。

采用中文分词每1M产生1.55M的索引文件，膨胀率1.55；每1M用时大约10秒；采用二元分词每1M产生2.21M的索引文件，膨胀率2.21；每1M用时大约7秒；

从搜索结果来看，两者可以大致相同数量的搜索结果（显示结果根据相关度排列顺序不同）。

对文本进行中文分词的目的是要提高文档检索的相关性，由于相关性的算法（如下图）涉及到很多因素，所以对二元切分和中文分词切分显示结果到底谁更相关（人理解的意义相关？），还无法得出结论。

相关度算法：

score(q,d) =	Σ	tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d)	* coord(q,d) * queryNorm(q)
	t in q

但有一点可以肯定，采用中文分词多花的解析中文时间可以带来丰厚的回报：索引文件和Term数量的大大减少。

可参考本文最后表格的图片对比。图中的数据是出现频率第100至120个Term情况，二元分词产生了大量的没有意义的Term。

posted on 2005-03-10 15:05 我要去桂林阅读(3596) 评论(1) 编辑收藏举报

刷新页面返回顶部

我要去桂林---田春峰的网志