关于query扩展的问题
摘要:
之前看过这方面的东西,也从同事那里拿过一些简单的query扩展的词典加入系统中,其实这个事情分为query的纠错和query的扩展两个方面,前者query的纠错比较简单。query纠错,关于英文的纠错可以理解成根据英文单词的字典树来进行纠错(包括正反字典树),而中文的纠错也可以在一定的程度上借鉴英文的纠错方式,前提是先将中文字标注拼音,然后利用拼音纠错(事先我们是有一份中文环境的拼音==》汉字的映射字典,当然这些都是事先经过切词了的),这种方法是基于高频词汇与汉语拼音对应进行转换的处理办法。这样的办法简单易行,但是汉语是大字符集语言,音字词库无法囊括所有的用户输入;不在词库内的句子更是无法转换 阅读全文
posted @ 2011-01-05 21:18 白天的小萤火虫 阅读(554) 评论(0) 推荐(0) 编辑