[Hadoop in China 2011] eBay:选择HBase建立搜索引擎的原因

http://tech.it168.com/a2011/1202/1283/000001283147.shtml

在今天下午进行的NoSQL系统及应用分论坛中,来自eBay Hadoop团队的杰出工程师马明带来主题演讲“Intro to HBase and its usage in eBay(HBase及其在eBay应用)”,介绍了eBay是如何利用Hadoop和HBase来建立搜索引擎方面的技术。

eBay:选择HBase建立搜索引擎的原因
▲eBay Hadoop团队的首席工程师马明

  eBay作为电子商务平 台连接着世界各地不同的买方和卖方,因此就需要一个功能强大的搜索引擎。一个好的搜索引擎不仅要具备快速、大规模和高可靠性的特点,还需要具备搜索结果的 准确性和操作的体验性。Hadoop因其Index Generation的数据量的特点和批处理的特点,可以在搜索引擎的架构上提供一个平台上的支持。

   Hadoop有很多子系统,在搜索引擎的范围内,主要有五个子系统,分别是HBase(数据存储引擎)、HDFS(分布式文件系统)、 MapReduce(为应用程序在大量计算机上做并行处理提供平台)、Zookeeper(分布式协调服务)、Oozie(为管理MapReduce jobs提供流程)。

eBay:选择HBase建立搜索引擎的原因
▲HBase数据模型

   马明介绍了HBase。这是一个面向列,从Google的BigTable发展而来开源的分布式存储系统。HBase与关系型数据库一样,存在多行的表 结构和主键。除此之外HBase还提供了新的数据模型,列之间可以结合形成column family,不同的表单元可以有不同的版本,这使得应用程序能更加灵活的使用HBase。

eBay:选择HBase建立搜索引擎的原因
▲HBase系统概览

   谈到eBay的搜索引擎为什么会选择HBase,马明表示从技术角度上,HBase跟传统数据库和其他NoSQL相比有它独特的优势。HBase在一定 的范围内都是线性的,只要增加计算机就能处理更多的数据,以满足eBay数据增长的需求,并且HBase还有自动故障切换、高一致性和高效随机读写功能。 从技术以外的角度上,HBase在开发社区和使用人群方面都有这非常明显的优势。

eBay:选择HBase建立搜索引擎的原因
▲搜索引擎需改进的三个方面

  马明认为HBase系统仍然存在一些问题,它的可靠性和有效性还有待提高。

posted @ 2011-12-05 10:00  Jonson Li  阅读(486)  评论(0编辑  收藏  举报