摘要: 前言 在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作。 技术点 MapReduce框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列(PriorityQueue 阅读全文
posted @ 2018-03-21 13:31 扎心了,老铁 阅读(7659) 评论(5) 推荐(1) 编辑
摘要: 流量统计项目案例 样本示例 需求 1、 统计每一个用户(手机号)所耗费的总上行流量、总下行流量,总流量 2、 得出上题结果的基础之上再加一个需求:将统计结果按照总流量倒序排序 3、 将流量汇总统计结果按照手机归属地不同省份输出到不同文件中 第一题 第二题 FlowBean.java 1 import 阅读全文
posted @ 2018-03-21 11:45 扎心了,老铁 阅读(4104) 评论(4) 推荐(4) 编辑
摘要: 对combiner的理解 combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。 执行combiner操作要求开发者必须在程序 阅读全文
posted @ 2018-03-21 11:44 扎心了,老铁 阅读(3974) 评论(1) 推荐(0) 编辑
摘要: Partitioner分区类的作用是什么? 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多 阅读全文
posted @ 2018-03-21 11:43 扎心了,老铁 阅读(4422) 评论(1) 推荐(0) 编辑
摘要: http://blog.csdn.net/strongyoung88/article/details/68952248 阅读全文
posted @ 2018-03-21 11:41 扎心了,老铁 阅读(10663) 评论(1) 推荐(0) 编辑
摘要: MapReduce 多 Job 串联 需求 一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理,多 job 的串联可以借助 MapReduce 框架的 JobControl 实现 实例 以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR,其中有 阅读全文
posted @ 2018-03-21 11:37 扎心了,老铁 阅读(5820) 评论(1) 推荐(0) 编辑
摘要: 概述 一个完整的 MapReduce 程序在分布式运行时有两类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、Yarnchild:负责 map 阶段的整个数据处理流程 3、Yarnchild:负责 reduce 阶段的整个数据处理流程 以上两个阶段 MapTask 和 阅读全文
posted @ 2018-03-21 11:36 扎心了,老铁 阅读(8356) 评论(1) 推荐(1) 编辑
摘要: MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的 阅读全文
posted @ 2018-03-21 11:34 扎心了,老铁 阅读(9494) 评论(1) 推荐(1) 编辑
摘要: NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力 问题场景 1、Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集 阅读全文
posted @ 2018-03-21 11:33 扎心了,老铁 阅读(8407) 评论(1) 推荐(2) 编辑
摘要: HDFS的写操作 《HDFS权威指南》图解HDFS写过程 详细文字说明(术语) 1、使用 HDFS 提供的客户端 Client,向远程的 namenode 发起 RPC 请求 2、namenode 会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会 为文件创建一个记录,否则会让客户端 阅读全文
posted @ 2018-03-21 11:31 扎心了,老铁 阅读(15616) 评论(4) 推荐(4) 编辑
摘要: HDFS API的高级编程 HDFS的API就两个:FileSystem 和Configuration 1、文件的上传和下载 1 package com.ghgj.hdfs.api; 2 3 import org.apache.hadoop.conf.Configuration; 4 import 阅读全文
posted @ 2018-03-21 11:29 扎心了,老铁 阅读(10188) 评论(4) 推荐(3) 编辑
摘要: HDFS的优点和缺点 HDFS的优点 1、可构建在廉价机器上 通过多副本提高可靠性,提供了容错和恢复机制 服务器节点的宕机是常态 必须理性对象 2、高容错性 数据自动保存多个副本,副本丢失后,自动恢复 HDFS的核心设计思想: 分散均匀存储 + 备份冗余存储 3、适合批处理 移动计算而非数据,数据位 阅读全文
posted @ 2018-03-21 11:19 扎心了,老铁 阅读(10963) 评论(3) 推荐(4) 编辑
摘要: 一、添加插件 将hadoop-eclipse-plugin-2.7.5.jar放入eclipse的plugins文件夹中 二、在Windows上安装Hadoop2.7.5 版本最好与Linux集群中的hadoop版本保持一致 1、将hadoop-2.7.5-centos-6.7.tar.gz解压到W 阅读全文
posted @ 2018-03-21 11:06 扎心了,老铁 阅读(7452) 评论(3) 推荐(1) 编辑
摘要: Hadoop常用命令 启动HDFS集群 启动YARN集群 查看HDFS系统根目录 创建文件夹 级联创建文件夹 查看hsdf系统根目录下的所有文件包括子文件夹里面的文件 [hadoop@hadoop1 ~]$ hadoop fs -ls -R /aadrwxr-xr-x - hadoop superg 阅读全文
posted @ 2018-03-21 10:59 扎心了,老铁 阅读(16176) 评论(2) 推荐(1) 编辑
摘要: HDFS前言 HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统,主要用来解决海量数据的存储问题 设计思想 1、分散均匀存储 dfs.blocksize = 128M 2、备份冗余存储 dfs.replication = 3 在大数据系统中作用 为各 阅读全文
posted @ 2018-03-21 10:52 扎心了,老铁 阅读(9994) 评论(3) 推荐(2) 编辑
摘要: 分布式集群的通用问题 当前的HDFS和YARN都是一主多从的分布式架构,主从节点 管理者和工作者 问题:如果主节点或是管理者宕机了。会出现什么问题? 群龙无首,整个集群不可用。所以在一主多从的架构中都会有一个通用的问题: 当集群中的主节点宕机之后,整个集群不可用。这个现象叫做:单点故障。SPOF 单 阅读全文
posted @ 2018-03-21 10:46 扎心了,老铁 阅读(9414) 评论(2) 推荐(0) 编辑
摘要: 概念了解 主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构。 主从结构分类: 1、一主多从 2、多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1、主节点 从节点 2、master 阅读全文
posted @ 2018-03-21 10:41 扎心了,老铁 阅读(51403) 评论(6) 推荐(7) 编辑
摘要: 下载Hadoop源码 1、登录官网 2、确定你要安装的软件的版本 一个选取原则: 不新不旧的稳定版本 几个标准: 1)一般来说,刚刚发布的大版本都是有很多问题 2)应该选择某个大版本中的最后一个小版本 阅读编译文档 1、准备一个hadoop源码包,我选择的hadoop的版本是:hadoop-2.7. 阅读全文
posted @ 2018-03-21 10:22 扎心了,老铁 阅读(13124) 评论(13) 推荐(4) 编辑
摘要: Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的 阅读全文
posted @ 2018-03-21 10:20 扎心了,老铁 阅读(14622) 评论(4) 推荐(7) 编辑