摘要:
数据采集 离线采集 sqoop datax 实时采集 canel Oracle GoldenGate(提供异构环境下交易数据的实时捕捉、变换、投递) 日志采集 Flume(实时采集、聚合、传输) Logstash Scribe 数据储存 分布式文件系统 hdfs(可创建、删除、移动或重命名文件) 键 阅读全文
摘要:
Hadoop Hadoop生态圈,是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。 把它比作一个厨房所有需要的各种工具。 它的两大核心式HDFS和YARN。主要包括分布式文件管理系统HDFS、资源管理框架YARN,分布式计算框架MapReduce,分布式协作服 阅读全文