白天的小萤火虫

导航

2011年1月5日

关于query扩展的问题

摘要: 之前看过这方面的东西,也从同事那里拿过一些简单的query扩展的词典加入系统中,其实这个事情分为query的纠错和query的扩展两个方面,前者query的纠错比较简单。query纠错,关于英文的纠错可以理解成根据英文单词的字典树来进行纠错(包括正反字典树),而中文的纠错也可以在一定的程度上借鉴英文的纠错方式,前提是先将中文字标注拼音,然后利用拼音纠错(事先我们是有一份中文环境的拼音==》汉字的映射字典,当然这些都是事先经过切词了的),这种方法是基于高频词汇与汉语拼音对应进行转换的处理办法。这样的办法简单易行,但是汉语是大字符集语言,音字词库无法囊括所有的用户输入;不在词库内的句子更是无法转换 阅读全文

posted @ 2011-01-05 21:18 白天的小萤火虫 阅读(554) 评论(0) 推荐(0) 编辑

今天看了一下proximity相关的论文An Exploration of Proximity Measures in Information Retrieval

摘要: 前几天在做广告bidphase相关的东西,用到几个和proximity相关的feature,了解了一下这个技术在搜索中的运用。现在的搜索引擎应该都支持proximity了,这个只需要在建立index的时候代入doc中各个term的位置信息就可以了。一般来说,proximity是比较耗时间的,所以一般都放在第二阶段rank来使用(第一阶段用用vector space model之类的,算算TFIDF)。回想起之前在引擎组写的rank插件,静态分+动态分的实现模型,其中的动态分数就是使用的proximity信息。而静态分一般都使用TFIDF或者BM25来事先算好(用TFIDF或者BM25事先计算好 阅读全文

posted @ 2011-01-05 20:56 白天的小萤火虫 阅读(720) 评论(0) 推荐(0) 编辑