数据导入Sqoop 、Flume、distip
Apache Flume是一个将大规模数据导入HDFS的工具,典型的应用是从另一个系统中收集日志数据。通过管道方式将数据写入Flume,再通过Flume将事件写入HDFS中。
Flume提供了不通级别的数据投递可靠性,如最大努力投递,在多个Flume节点失效的情况下成功投递。
Apache Sqoop将数据从结构化存储设备批量导入HDFS中设计的,Sqoop应用场景是将组织的白天生产的数据库中的数据在晚间导入Hive中进行分析;
distcp从Hadoop系统之间传输数据,如果两个集群之间运行相同版本的Hadoop,就非常适合使用hdfs方案。distcp作为一个MapReduce作业来实现,复制作业通过集群中的并行运行的Map来完成的。没有reduce。例如hadoop distcp hafs://namenode1/foo hdfs://namenode2/bar