2013年9月4日

排行榜将是移动搜索的未来

摘要: 你是否知道Ranker.com是无线web排名前100的网站,已经超过过了一些著名的名字,如Onion和People magazine。我们在PC端的排名大概在500名左右。为什么我们在移动端比pc端更受欢迎?事实上,我们做出这个论断已经有一段时间了,但我们并没有这样的权威度,直到我Google也做出了相同的论断。 移动客户端对搜索行为有多个方面的影响: 首先,移动搜索中多次搜索才能得到正确结果的过程会变得令人厌烦,这并不是一个值得称道的用户体验体验。在移动设备,尤其是手机上,这一点尤其明显。这给搜索提供了全新的激励,能让用户可以在一次搜索中就能得到正确的答案,而不是费力的去多次搜索。... 阅读全文

posted @ 2013-09-04 23:16 排行榜技术 阅读(334) 评论(0) 推荐(0) 编辑

2013年8月29日

wand(weak and)算法基本思路

摘要: 一般搜索的query比较短,但如果query比较长,如是一段文本,需要搜索相似的文本,这时候一般就需要wand算法,该算法在广告系统中有比较成熟的应该,主要是adsense场景,需要搜索一个页面内容的相似广告。 Wand方法简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过倒排索引已经要比全量遍历节约大量时间,但是有时候仍然很慢。 原因是很多时候我们其实只是想要top n个结果,一些结果明显较差的也进行了复杂的相关性计算,而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限,从而建立一个阈值对倒排中的结果进行减枝,从而得到提速的效果。 wan... 阅读全文

posted @ 2013-08-29 18:06 排行榜技术 阅读(12702) 评论(3) 推荐(2) 编辑

2013年8月28日

xapian倒排索引的归并流程

摘要: Xapian的检索流程和大部分搜索系统都一样,就先从倒排表抽取候选文档,然后结合其他信息进行排序,取top文档作为搜索结果,具体流程如下: 图1 xapian搜索流程 具体流程在terms中找到documents查询这些文档对应的values,进行排序,如果候选document比较多,这个过程就会很慢。给出top结果,一般会读取data数据。 和别的搜索系统一样,提高搜索速度,主要靠优化第一步,较少允许量,或者缩减到下一步的候选文档数目。 xapian倒排索引的归并中,对and的归并采用的是一般的一次一文档的方法DAAT(Document and a time)的方法,但对于... 阅读全文

posted @ 2013-08-28 18:27 排行榜技术 阅读(1505) 评论(0) 推荐(0) 编辑

xapian搜索系统存储结构解读

摘要: Xapian的database是所有用于检索的信息表的集合,以下的表是必需的: posting list table 保存了被每一个term索引的document,实际上保存的应该是document在database中的Id,此Id是唯一的。这个就是倒排表。record table 保存了每一个document所关联的data,data不能通过query检索,只能通过document来获取。这个相当于快照。term list table 保存了索引每个document的所有的term。这个相当于正排表。position list table 保存了每一个Term出现在每一个document.. 阅读全文

posted @ 2013-08-28 13:49 排行榜技术 阅读(898) 评论(0) 推荐(0) 编辑

2013年8月25日

排行榜团队开博客了

摘要: 热门排行榜项目:http://www.daremen.com/ 我们的目标:将世界上所有可以排行的东西进行排行,上至天文,下至地理,中间管杯子、桌子。 我们仿照的是:ranker,http://www.ranker.com/ ,我们C2C:) 排行榜的意义是什么,你知道世界上最高峰是什么,第二个,第三个呢?then,知道10个之后的只有地理学家了,排行榜就是要满足头部需求。 在移动时代,对更精确的头部信息需求更加强烈,这就是我们做这个项目的目标。 ranking everything! Go Go Go! 阅读全文

posted @ 2013-08-25 15:38 排行榜技术 阅读(174) 评论(0) 推荐(0) 编辑

导航