随笔分类 - Hadoop
摘要:一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核
阅读全文
摘要:Yarn系统原理 Yarn主要就是将JobTracker的两个主要功能分离成单独的组件:资源管理、任务调度/监控 RM,ResourceManager,全局管理 NM,NodeManager,节点管理 AM,ApplicationMaster,单个应用管理 Container,单个任务的资源管理 R
阅读全文
摘要:Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集 可以基于存储数据来构建数据结构,提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库,是数据仓库,它的设计是围绕数据分析,而不是数据存储,或者说Hive
阅读全文
摘要:HDFS主要有NameNode和多个datanode节点组成。 架构模型: HDFS的设计思想 数据存储:元数据(metadata)+应用数据(applicationdata) 服务节点:名字节点(NameNode)+数据节点(DataNode) 服务架构:主从结构(Master/Slave), N
阅读全文