摘要: 中英文关键字生成器:中文,会生成最大命中率2+3的格式,英文保留原词,至少2个长。见我http://www.cnblogs.com/dullwolf/archive/2011/04/14/2015539.html这个文章:倒排索引,中文维持2+3长度的重要性。using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Text.RegularExpressions;namespace ConsoleApplication2{ class Program { sta 阅读全文
posted @ 2011-04-14 15:38 CSDN大笨狼 阅读(1187) 评论(1) 推荐(0) 编辑
摘要: 汉字,如果保持索引关键字的长度只有2和3两种,那么对于输入过长的怎么办?5个字可以组成2+3和3+2两种,究竟是谁高,要根据命中率来排序,命中率高的,就作为组合搜索条件比如:笨狼代码大管家,可以拆成:笨狼 代码 大管家笨狼 代码大 管家笨狼代 码大 管家------------------如果:“笨狼” “代码” “大管家”这几个字在索引中存在,或者词频高,那么就按照这个做组合搜索。相反,象“码大”“代码大”这样可能压根不算是词的组合,排序就会靠后。例如:当索引中存在:“笨狼” “代码” “大管家”“管家”时,命中率分别是笨狼代 码大 管家1 笨狼 代码大 管家2笨狼 代码 大管家3倒排索引保 阅读全文
posted @ 2011-04-14 01:11 CSDN大笨狼 阅读(750) 评论(0) 推荐(0) 编辑