摘要: 1、什么是Sqoop: Sqoop就是将数据在 关系型数据库(mysql、oracle)和 Hadoop 之间相互转移的工具。底层是用mapreduce来实现的。 2、Sqoop的工作机制: https://blog.csdn.net/RivenDong/article/details/101423 阅读全文
posted @ 2019-12-10 21:13 guoyu1 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 1、什么是Flume:apache顶级项目,主要用来做数据采集。分布式、高可用,将海量日志进行采集、聚合、传输的系统。能够对数据进行简单处理在发送到接收方。 2、Flume组件:source、channel、sink,一个Flume可以有一个source,多个channel、多个sink (1)so 阅读全文
posted @ 2019-12-10 21:05 guoyu1 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 目录: 一、hive简介 二、Hive语句的执行流程 三、hive和传统数据库的区别 一、Hive简介 1、什么是Hive:hive是一种基于hadoop的数据仓库,能够将结构化的数据映射成一张表,并提供HQL进行查询。其数据是存储在hdfs上,本质是将sql命令转化成MapReduce来执行。 2 阅读全文
posted @ 2019-12-10 17:22 guoyu1 阅读(1367) 评论(0) 推荐(0) 编辑
摘要: 一、yarn中的角色: ResourceManager:集群计算资源的分配,启动ApplicationMaster,监控NodeManager的状态。 NodeManager:启动和管理节点中的容器。 ApplicationMaster:运行mapreduce任务,每个job有一个,分配map在哪里 阅读全文
posted @ 2019-12-10 17:12 guoyu1 阅读(735) 评论(0) 推荐(0) 编辑