演讲嘉宾及主题
嘉宾简介:殷庆轩
百度搜索技术部研究员,2007年从清华大学获硕士学位后加入百度,从事网页搜索相关性改进方面的工作。目前负责网页搜索的时效性、需求
满足多样性、阿拉丁相关性这几方面的工作。
演讲主题:走进搜索核心技术——时效性
主要内容:“全、准、快、新”是搜索引擎的四大评价指标,其中的“新”指代的就是时效性。随着互联网的发展,网民对信息获取的时效性
要求越来越高。同时越来越多的网民更多的参与到创造互联网内容中去,互联网上的新信息也在迅速的膨胀。这都给搜索引擎时效性需求的满
足带来了前所未有的冲击。
本次沙龙希望与大家交流一下,百度在提升搜索引擎时效性上面,是怎样考虑的。演讲者会从用户的时效性需求出发,逐步分析为了满足这样
的需求,搜索引擎需要做哪些应对和改变,并解释时效性改进方面的难点。演讲的内容,也会体现出百度工程师,他们在做什么事情,以及是
怎么做事情的。
嘉宾简介:何伟平
PostgreSQL数据库研究人员和中文文档维护人员,Perl 编程第三版译者,Linux 集群管理员及数据库研究人员和软件开发人员。Qunar工程师
和搜索技术负责人。
演讲主题:数据库在现代搜索技术中的应用
主要内容:搜索引擎搜索质量与分层以及数据库在现代搜索技术中的应用。搜索引擎有量和速度之间的平衡,如何利用分层的机制实现速度与
总量的平衡。传统数据库在处理关系型数据之外,如何在 NoSQL的大潮中看待传统数据库技术?
对于百度索引中提供检索的数据只有百亿条,而现在每天增加的数据量已是2-3亿条,现在每一天增加的数据量是2003年一年数据的增长量.对于
如此强势的增长,要对数据进行全部索引并在200-300个毫秒级返回检索结果几乎是不可能的,所以就要对数据进行优化.就好比较JVM的垃圾回收
一样.数据是有时效性的,索引可以为分最新最常使用的,不常使用的,很少使用的,很老又不用的.所以可以多几个索引库,并对数据进行整理,对
于时效性不强的可以向后面的索引里转移,检索时对这几个索引并发检索,最后将结果合并后返回用户.对于不用的数据只是一个保存,而不提供
检索,或是在检索结果很少的情况下,再多增加一个链接"点击查看更多",点击后就去查找老而全的库,虽然返回时间可能会很长,但是用户体验的
感受是不会降低的
殷庆轩在题为“搜索引擎的时效性需求满足”演讲中,主要介绍了时效性问题的定义、需求分析,以及包括收录、排序和系统等相关的技术点
。比如结合当前的热点事件对突发时效性的难点进行了分析,在目前每天全球新增或者修改的网页数量以数十亿为量级的海量数据下,要在几
秒或者几分钟内提供准确而详细的信息,是非常困难的。这也就要求搜索引擎具备“全、准、快、新”的特点,其中“全”即对数据的收录详
细程度,”准“为对相关数据进行排序,而”快“则是确保系统能够以最快的速度响应用户的需求。
来自去哪儿的工程师和搜索技术负责人何伟平,在活动现场分享了”数据库在现代搜索技术中的应用“。在加入去哪儿之前,何伟平在雅虎中
国研发中心从事网页搜索相关工作,并且是PostgreSQL数据库研究人员和中文文档维护人员,在数据库技术领域有自己的见解。在他的演讲中
,他先是介绍了数据库的演变史,而后重点介绍了数据库和现代搜索的关系,比如SQL数据库并没有过时,SQL数据库也有强大的扩展能力,用
好了也可以拥有很好的性能。他也提到对于中等业务规模,访问量也不是非常巨大,而对需求要求灵活的网站,选择SQL数据库是比较理想的。
在谈到使用SQL数据库来做搜索的优缺点时,他提到:
简而言之,用SQL数据库来做搜索,其有点是简单、方便、通用,而且易于维护;不足之处是需要比较强的专业知识,而且可能需要额外的编码
等。
最后他以下拉提示、相关推荐、站内搜索和垂直引擎等几个案例分享了他对现代搜索技术的看法。在提问环节,有参会者问道”去哪儿网站在
抓取航班数据的时候如何确保时效性“,何伟平解释说:
这个问题和刚才百度朋友提到的时效性挺像的,我们最头疼的地方也是时效和Cache(缓存)之间的关系,我们采取的是比较短的时间Cache策
略,这是(系统)比较长时间运行出来的经验,一般也就几秒钟就足够了。比如热门的航线,比如京沪,我们几乎是实时地去抓,但也不是真
的实时,因为用户的使用习惯是一旦查到一个结果后都会再刷好几次,它刷的这几次就需要坚决地不去影响后面的网站或者航信系统。我们一
般是这样考虑的!
最后的开放环节,分小组讨论,然后推选组长演讲。
殷庆轩的小组讲了怎么利用微博做实时搜索,如何挖掘价值,对实时内容进行数据挖掘,获取用户需求。同样也提到要注意内容审查的风险。
同样另外一个小组在微博搜索时考虑如何处理人和人的关系。我们小组主要讨论的话题一个是如何从网页中抽取内容,方法大概二种,一种是
正则表达式,另外一种是借助开源软件解析网页,如HtmlParser等。另一个话题是时效性,通过自己创建一个动态统计算法,把更新频率快的
,内容数量多的优先级调高,把更新慢的,更新数量少的优先级调低。另一位同行分享他的经验是他观察新闻更新时间的频率,一般在上午9点
左右新闻更新的频率较高,所这把这段时间的新闻抓取频率调高一些。
殷庆轩更多的从大型搜索引擎的角度出发考虑,比如实时数据,早期数据,老数据分开索引最后合并显示。如何判断网页质量等等。
殷庆轩主要从中等规模垂直搜索引擎的角度考虑分享一些经验,从他的验讲中也得到一些提示,比如使用数据库来实现分词,倒排索引功能,
用数据库自定义函数功能来实现相关性搜索功能。