10gen刚刚发布了MongoDB Hadoop Connector的1.0版本,它是一个中间件产品,用于将MongoDB和Hadoop连接起来,让MongoDB可以方便的使用Hadoop的分布式计算能力。

MongoDB Hadoop Connector的主要流程是让Hadoop从MongoDB中读取原始数据,在通过Hadoop计算完成后,再将结果导入到MongoDB中。原始数 据的读取和结果写入可以对同一个MongoDB,也可以是不同的。其主要目的是让使用MongoDB的用户能够更方便地直接使用Hadoop功能。

目前MongoDB Hadoop Connector已经与Hadoop生态系统中的一些组件进行了整合,后续还会根据反馈进行更全方便的整合。具体如下:

  • 可以通过 Pig 向 MongoDB 中写入数据。
  • 可以通过分布式日志系统 Flume 往MongoDB中导入日志原始数据。
  • 通过使用Hadoop Streaming,可以用 Python来写 MapReduce函数。

MongoDB Hadoop Connector目前支持2.0以上的版本(1.8.x版本也基本上能够支持)。

当然项目是开源的,项目地址:mongo-hadoop

消息来源:blog.10gen.com

posted on 2012-08-10 18:03  风生水起  阅读(2488)  评论(0编辑  收藏  举报