随笔分类 - Hadoop
摘要:MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段 任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle:分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前,需要先进行分区,然后区内排序 ②环形缓存区数据到达阈值(80
阅读全文
摘要:一.编译 hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-d
阅读全文
摘要:一.简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HD
阅读全文
摘要:一.什么是yarn Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic
阅读全文
摘要:0.HDFS-HA的工作机制 问题:因为hdfs的中心就是namenode,而我们的集群只有一台服务器安装了nn,如果这台服务器挂掉,整个集群瘫痪,这个就是典型的单点故障,搭建HA其实就是为了解决单点故障问题 解决办法:安装多台nn 此方案有如下问题需要解决? a)多个nn内部元数据的数据一致性的问
阅读全文
摘要:一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系
阅读全文
摘要:Hadoop【MR开发规范、序列化】 一、MapReduce编程规范 用户编写的程序分成三个部分:Mapper、Reducer和Driver 1.Mapper阶段 (1)用户自定义Mapper要继承Mapper父类 (2)Mapper的输入时K-V对的形式(K-V可自定义) (3)Mapper的业务
阅读全文
摘要:一、配置hadoop3.1.3 windows环境依赖 将 \资料\01_jar包\03_Windows依赖\hadoop-3.0.0放到任意一个目录 配置环境变量 %HADOOP_HOME%:D:\SoftWare\hadoop-3.1.0 添加到path路径 %HADOOP_HOME%\bin
阅读全文