摘要: 2014-3-10【需求】接受的工作需要处理海量数据,第一步先用工具做一些运营数据的产出,考虑采用hadoop方便以后跟随数据量变大可以补充机器,而不用动统计逻辑。当前的hadoop社区非常活跃,hadoop周边工具不断出新,以下是部分热门工具的初步了解:数据存储 hadoop,包含hdfs和mapreduce hbase,支持大表,需要zk zookeeper,分布式集群管理,简称zk数据传输 flume/sribe/Chukwa 分布式日志收集系统,从多个机器汇总到一个节点 sqoop,传统db和hdfs/hbase之间数据传输主要查询接口 hive,一个SQL查询接口 pig,一个脚本查 阅读全文
posted @ 2014-03-11 10:13 aquastar 阅读(558) 评论(0) 推荐(0) 编辑