白天的小萤火虫

导航

2011年1月11日

python库的学习系列之总论

摘要: 由于python的库例子程序太少,作为快速查询很不方便,本着一次认真学习,终身受用的原则,决定将阅读的感悟以及一些样例的实现记录一下,主要是为了自己在将来的工作当中能够快速的解决遇到的问题,毕竟记忆力是有限的,而工作中遇到的问题大部分都是一些细节没有解决好或者基础知识不够好所带来的问题,从今天开始这个系列,争取详细的记录。其中有些不常用的就没有详细阐述,可以参考python doc http://docs.python.org/library/index.html 阅读全文

posted @ 2011-01-11 15:34 白天的小萤火虫 阅读(215) 评论(0) 推荐(0) 编辑

2011年1月5日

关于query扩展的问题

摘要: 之前看过这方面的东西,也从同事那里拿过一些简单的query扩展的词典加入系统中,其实这个事情分为query的纠错和query的扩展两个方面,前者query的纠错比较简单。query纠错,关于英文的纠错可以理解成根据英文单词的字典树来进行纠错(包括正反字典树),而中文的纠错也可以在一定的程度上借鉴英文的纠错方式,前提是先将中文字标注拼音,然后利用拼音纠错(事先我们是有一份中文环境的拼音==》汉字的映射字典,当然这些都是事先经过切词了的),这种方法是基于高频词汇与汉语拼音对应进行转换的处理办法。这样的办法简单易行,但是汉语是大字符集语言,音字词库无法囊括所有的用户输入;不在词库内的句子更是无法转换 阅读全文

posted @ 2011-01-05 21:18 白天的小萤火虫 阅读(554) 评论(0) 推荐(0) 编辑

今天看了一下proximity相关的论文An Exploration of Proximity Measures in Information Retrieval

摘要: 前几天在做广告bidphase相关的东西,用到几个和proximity相关的feature,了解了一下这个技术在搜索中的运用。现在的搜索引擎应该都支持proximity了,这个只需要在建立index的时候代入doc中各个term的位置信息就可以了。一般来说,proximity是比较耗时间的,所以一般都放在第二阶段rank来使用(第一阶段用用vector space model之类的,算算TFIDF)。回想起之前在引擎组写的rank插件,静态分+动态分的实现模型,其中的动态分数就是使用的proximity信息。而静态分一般都使用TFIDF或者BM25来事先算好(用TFIDF或者BM25事先计算好 阅读全文

posted @ 2011-01-05 20:56 白天的小萤火虫 阅读(720) 评论(0) 推荐(0) 编辑

2010年12月20日

programming collective intelligence的读书笔记

摘要: 第二章 Making Recommendations现在我们浏览的每一个网站,几乎都会发现推荐系统的痕迹,以前我总是觉得很神秘,读完这一章发现其实挺简单的(呵呵,但是大数据量的计算还是很大的问题)。本章主要讲了一般的推荐系统的实现方式,基本上都是用协同过滤来作的,所谓协同过滤 http://en.wikipedia.org/wiki/Collaborative_filtering ,就是找臭味和你相同的那些人或物,根据他们已有的喜好来推测出你的喜好。作者从实际例子出发,讲的很好,特别适合我这种半路出家的人。作者从影评推荐的例子入手,根据每个用户的影评资料找出每一对用户之间的相似度,进而可以根据 阅读全文

posted @ 2010-12-20 21:34 白天的小萤火虫 阅读(252) 评论(0) 推荐(0) 编辑