10gen刚刚发布了MongoDB Hadoop Connector的1.0版本,它是一个中间件产品,用于将MongoDB和Hadoop连接起来,让MongoDB可以方便的使用Hadoop的分布式计算能力。
MongoDB Hadoop Connector的主要流程是让Hadoop从MongoDB中读取原始数据,在通过Hadoop计算完成后,再将结果导入到MongoDB中。原始数 据的读取和结果写入可以对同一个MongoDB,也可以是不同的。其主要目的是让使用MongoDB的用户能够更方便地直接使用Hadoop功能。
目前MongoDB Hadoop Connector已经与Hadoop生态系统中的一些组件进行了整合,后续还会根据反馈进行更全方便的整合。具体如下:
- 可以通过 Pig 向 MongoDB 中写入数据。
- 可以通过分布式日志系统 Flume 往MongoDB中导入日志原始数据。
- 通过使用Hadoop Streaming,可以用 Python来写 MapReduce函数。
MongoDB Hadoop Connector目前支持2.0以上的版本(1.8.x版本也基本上能够支持)。
当然项目是开源的,项目地址:mongo-hadoop
消息来源:blog.10gen.com