摘要: 索引压缩的作用 词典压缩 笔者认为词典压缩算法对中文搜索来说意义不大。之所以要压缩词典,主要是因为Heaps定律指出,随着文档数目的增加,词汇表会持续增长而不会稳定到一个最大值。而中文分词与英文分词的不同在于中文分词是基于词典的,词汇主要来源于词典,因此除非有新词挖掘算法不断扩充词典,否则索引中的中 阅读全文
posted @ 2017-04-12 10:54 叫我家宝 阅读(597) 评论(0) 推荐(0) 编辑