Hadoop - 随笔分类 - 来自遥远的水星

该文被密码保护。

posted @ 2020-10-14 09:24 来自遥远的水星阅读(0) 评论(0) 推荐(0) 编辑

摘要：MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle：分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前，需要先进行分区，然后区内排序 ②环形缓存区数据到达阈值(80 阅读全文

posted @ 2020-07-31 18:43 来自遥远的水星阅读(905) 评论(0) 推荐(0) 编辑

Hadoop、Hive【LZO压缩配置和使用】

摘要：一.编译 hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 0. 环境准备 maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像） gcc-c++ zlib-d 阅读全文

posted @ 2020-07-13 18:51 来自遥远的水星阅读(1238) 评论(0) 推荐(0) 编辑

Sqoop

摘要：一.简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中，也可以将 HD 阅读全文

posted @ 2020-07-13 18:25 来自遥远的水星阅读(315) 评论(0) 推荐(0) 编辑

Yarn【架构、原理、多队列配置】

摘要：一.什么是yarn Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic 阅读全文

posted @ 2020-07-02 16:50 来自遥远的水星阅读(5605) 评论(0) 推荐(0) 编辑

Hadoop【Hadoop-HA搭建(HDFS、YARN)】

摘要：0.HDFS-HA的工作机制问题：因为hdfs的中心就是namenode，而我们的集群只有一台服务器安装了nn，如果这台服务器挂掉，整个集群瘫痪，这个就是典型的单点故障，搭建HA其实就是为了解决单点故障问题解决办法：安装多台nn 此方案有如下问题需要解决？ a）多个nn内部元数据的数据一致性的问阅读全文

posted @ 2020-06-23 22:56 来自遥远的水星阅读(455) 评论(0) 推荐(0) 编辑

Hadoop【MR的分区、排序、分组】

摘要：一.分区问题：按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类，重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数分区数和reducetask关系阅读全文

posted @ 2020-06-21 10:27 来自遥远的水星阅读(519) 评论(0) 推荐(0) 编辑

Hadoop【MR开发规范、序列化】

摘要：Hadoop【MR开发规范、序列化】一、MapReduce编程规范用户编写的程序分成三个部分：Mapper、Reducer和Driver 1.Mapper阶段（1）用户自定义Mapper要继承Mapper父类（2）Mapper的输入时K-V对的形式（K-V可自定义）（3）Mapper的业务阅读全文

posted @ 2020-06-17 00:06 来自遥远的水星阅读(226) 评论(0) 推荐(0) 编辑

HDFS【hadoop3.1.3 windows开发环境搭建】

摘要：一、配置hadoop3.1.3 windows环境依赖将 \资料\01_jar包\03_Windows依赖\hadoop-3.0.0放到任意一个目录配置环境变量 %HADOOP_HOME%：D:\SoftWare\hadoop-3.1.0 添加到path路径 %HADOOP_HOME%\bin 阅读全文

posted @ 2020-06-14 18:17 来自遥远的水星阅读(2481) 评论(0) 推荐(0) 编辑

来自遥远的水星

随笔分类 - Hadoop

积分与排名

随笔分类

随笔档案

阅读排行榜