大数据生态开源工具

1. Flume：日志收集软件，里面的重要概念是agent，包括 source -> channel -> slink，sourc,slink 可以为hdfs,jdbc ... 一个简单的场景是用Flume监测一个文件夹fdir的数据变化，这时fdir就是source，并将变化传送到hdfs_path上，hdfs_path就是slink。

2. Sqoop：主要用于hadoop data（hdfs/hive/hbase）和 structured database(relational database)之间的 data export/import，比如 Hive->mysql，mysql->HBase。

3. ZooKeeper：现在大多的数据存储，server都以集群的形式出现。Zookeeper就是协调集群一致性问题。还没看懂~~

4. Hive：是个数据仓库，适用于全表查询的一些操作。Hive本身不存储数据，其本身依赖于HDFS和MapReduce，其将HDFS上的结构化文件映射为一张逻辑数据表。

5. HBase：是个数据库，可以建索引。

6. Pig：数据流编程语言，提供了比MapReduce更丰富的API操作，比如join。

7. Docker：是一种开放性虚拟化容器平台，一个注册仓库服务器包含若干仓库（可以public和private），仓库用于保存镜像。一个镜像上面可以有若干个容器，一个容器包含了一个应用运行所需要的所有环境。

8. RabbitMQ：一种消息中间件，在分布式系统中用于存储转发消息，用于组件之间的解耦。组件之间用message的形式进行通信，互相不知道对方的存在。

posted on 2015-06-10 14:52 keketse 阅读(308) 评论(0) 编辑收藏举报

刷新页面返回顶部

lbingkuai

大数据生态开源工具

导航

公告