2019 年 12月 10 日随笔档案 - guoyu1

2019年12月10日

摘要： 1、什么是Sqoop： Sqoop就是将数据在关系型数据库（mysql、oracle）和 Hadoop 之间相互转移的工具。底层是用mapreduce来实现的。 2、Sqoop的工作机制： https://blog.csdn.net/RivenDong/article/details/101423 阅读全文

posted @ 2019-12-10 21:13 guoyu1 阅读(378) 评论(0) 推荐(0) 编辑

Flume组件

摘要： 1、什么是Flume：apache顶级项目，主要用来做数据采集。分布式、高可用，将海量日志进行采集、聚合、传输的系统。能够对数据进行简单处理在发送到接收方。 2、Flume组件：source、channel、sink，一个Flume可以有一个source，多个channel、多个sink （1）so 阅读全文

posted @ 2019-12-10 21:05 guoyu1 阅读(873) 评论(0) 推荐(0) 编辑

Hive节点及原理

摘要：目录：一、hive简介二、Hive语句的执行流程三、hive和传统数据库的区别一、Hive简介 1、什么是Hive：hive是一种基于hadoop的数据仓库，能够将结构化的数据映射成一张表，并提供HQL进行查询。其数据是存储在hdfs上，本质是将sql命令转化成MapReduce来执行。 2 阅读全文

posted @ 2019-12-10 17:22 guoyu1 阅读(1407) 评论(0) 推荐(0) 编辑

Yarn资源调度器

摘要：一、yarn中的角色： ResourceManager：集群计算资源的分配，启动ApplicationMaster，监控NodeManager的状态。 NodeManager：启动和管理节点中的容器。 ApplicationMaster：运行mapreduce任务，每个job有一个，分配map在哪里阅读全文

posted @ 2019-12-10 17:12 guoyu1 阅读(749) 评论(0) 推荐(0) 编辑

打怪up

公告