摘要: 百分百命中的搜索引擎?没错,倒排索引的结构,一般常见的做法是分词后丢弃词库里没用的部分,那么词库里增加新词就是悲剧!~~隔几天维护了词库就全部重新分词一遍?前年“给力”不算词,现在谁都说,你伤不起呀~~坑爹呀!海量数据,频繁重新分词你分不起,有木有?有木有?要想百分百命中,永远不重新分词,全部地球的文字组合就不要丢掉,考虑存哪儿。文件,没错!~~文件可以存储最大量的信息。只要是O(1)查找,IO再慢,也是秒杀的。本人的实践,第一层文件夹是单个字母或汉字,第二层是两个字,第三层3个字,第四层4个字,没有第五层了,够用了。每个层最多65536个文件夹,最多一个文件,单个字不考虑做索引,如果你做也可 阅读全文
posted @ 2011-04-12 16:22 CSDN大笨狼 阅读(666) 评论(1) 推荐(0) 编辑