2011 年 1月 5 日随笔档案 - 白天的小萤火虫

2011年1月5日

关于query扩展的问题

摘要：之前看过这方面的东西，也从同事那里拿过一些简单的query扩展的词典加入系统中，其实这个事情分为query的纠错和query的扩展两个方面，前者query的纠错比较简单。query纠错，关于英文的纠错可以理解成根据英文单词的字典树来进行纠错（包括正反字典树），而中文的纠错也可以在一定的程度上借鉴英文的纠错方式，前提是先将中文字标注拼音，然后利用拼音纠错（事先我们是有一份中文环境的拼音==》汉字的映射字典，当然这些都是事先经过切词了的），这种方法是基于高频词汇与汉语拼音对应进行转换的处理办法。这样的办法简单易行，但是汉语是大字符集语言，音字词库无法囊括所有的用户输入；不在词库内的句子更是无法转换阅读全文

posted @ 2011-01-05 21:18 白天的小萤火虫阅读(554) 评论(0) 推荐(0) 编辑

今天看了一下proximity相关的论文An Exploration of Proximity Measures in Information Retrieval

摘要：前几天在做广告bidphase相关的东西，用到几个和proximity相关的feature，了解了一下这个技术在搜索中的运用。现在的搜索引擎应该都支持proximity了，这个只需要在建立index的时候代入doc中各个term的位置信息就可以了。一般来说，proximity是比较耗时间的，所以一般都放在第二阶段rank来使用（第一阶段用用vector space model之类的，算算TFIDF）。回想起之前在引擎组写的rank插件，静态分+动态分的实现模型，其中的动态分数就是使用的proximity信息。而静态分一般都使用TFIDF或者BM25来事先算好（用TFIDF或者BM25事先计算好阅读全文

posted @ 2011-01-05 20:56 白天的小萤火虫阅读(720) 评论(0) 推荐(0) 编辑

白天的小萤火虫

导航

公告

关于query扩展的问题

今天看了一下proximity相关的论文An Exploration of Proximity Measures in Information Retrieval