数据导入Sqoop 、Flume、distip

Apache Flume是一个将大规模数据导入HDFS的工具,典型的应用是从另一个系统中收集日志数据。通过管道方式将数据写入Flume,再通过Flume将事件写入HDFS中。

Flume提供了不通级别的数据投递可靠性,如最大努力投递,在多个Flume节点失效的情况下成功投递。

 

Apache Sqoop将数据从结构化存储设备批量导入HDFS中设计的,Sqoop应用场景是将组织的白天生产的数据库中的数据在晚间导入Hive中进行分析;

 

distcp从Hadoop系统之间传输数据,如果两个集群之间运行相同版本的Hadoop,就非常适合使用hdfs方案。distcp作为一个MapReduce作业来实现,复制作业通过集群中的并行运行的Map来完成的。没有reduce。例如hadoop distcp hafs://namenode1/foo    hdfs://namenode2/bar

posted @ 2017-07-02 21:33  erererer  阅读(205)  评论(0编辑  收藏  举报