摘要:
1、什么是Flume:apache顶级项目,主要用来做数据采集。分布式、高可用,将海量日志进行采集、聚合、传输的系统。能够对数据进行简单处理在发送到接收方。 2、Flume组件:source、channel、sink,一个Flume可以有一个source,多个channel、多个sink (1)so 阅读全文
摘要:
目录: 一、hive简介 二、Hive语句的执行流程 三、hive和传统数据库的区别 一、Hive简介 1、什么是Hive:hive是一种基于hadoop的数据仓库,能够将结构化的数据映射成一张表,并提供HQL进行查询。其数据是存储在hdfs上,本质是将sql命令转化成MapReduce来执行。 2 阅读全文
摘要:
一、yarn中的角色: ResourceManager:集群计算资源的分配,启动ApplicationMaster,监控NodeManager的状态。 NodeManager:启动和管理节点中的容器。 ApplicationMaster:运行mapreduce任务,每个job有一个,分配map在哪里 阅读全文