随笔分类 -  Hadoop

摘要:一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核 阅读全文
posted @ 2022-06-17 10:18 小蟋帅 阅读(140) 评论(0) 推荐(0) 编辑
摘要:Yarn系统原理 Yarn主要就是将JobTracker的两个主要功能分离成单独的组件:资源管理、任务调度/监控 RM,ResourceManager,全局管理 NM,NodeManager,节点管理 AM,ApplicationMaster,单个应用管理 Container,单个任务的资源管理 R 阅读全文
posted @ 2022-06-16 09:51 小蟋帅 阅读(203) 评论(0) 推荐(0) 编辑
摘要:Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集 可以基于存储数据来构建数据结构,提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库,是数据仓库,它的设计是围绕数据分析,而不是数据存储,或者说Hive 阅读全文
posted @ 2022-06-16 09:20 小蟋帅 阅读(158) 评论(0) 推荐(0) 编辑
摘要:HDFS主要有NameNode和多个datanode节点组成。 架构模型: HDFS的设计思想 数据存储:元数据(metadata)+应用数据(applicationdata) 服务节点:名字节点(NameNode)+数据节点(DataNode) 服务架构:主从结构(Master/Slave), N 阅读全文
posted @ 2022-06-16 09:01 小蟋帅 阅读(413) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示