摘要: 一:自定义输出 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储格式:文件路径+文件的内容 c:/a.txt i am hunter henshuai c:/b.txt i love delireba inputFormat(自定义加上路径) 代码编写: 1:自定义File 阅读全文
posted @ 2019-05-12 00:38 大魔王阿黎 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 先来个原理图压压惊: 温馨提示:如果看不清这个图,可以下载下来,在自己电脑上可以放大。 或者直接放大浏览器。快捷键Ctrl+鼠标滑轮上即可放大。想恢复原来浏览器的默认大小,快键键:Ctrl+数字0 一:概述shuffle Shuffle是mapreduce的核心,链接map与reduce的中间过程。 阅读全文
posted @ 2019-05-09 23:57 大魔王阿黎 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 辅助排序 WritableComparator排序(类): 1:原理:(借鉴别人的,个人觉得这个要好理解点) 它是用来给Key分组的 它在ReduceTask中进行,默认的类型是GroupingComparator也可以自定义 WritableComparator为辅助排序手段提供基础(继承它),用 阅读全文
posted @ 2019-05-08 22:48 大魔王阿黎 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1实现接口->WritableCompareable 排序操作在hadoop中属于默认的行为。默认按照字典殊勋排序。 2 排序的分类: 1)部分排序 2)全排序 3)辅助排序 4)二次排序 3 案例: 在流量汇总输出文件里的数据 进行分区,每个分区中的数据进行排序 数据预览,这里只是进行了流量的汇总 阅读全文
posted @ 2019-05-07 22:37 大魔王阿黎 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 一:分区 1:自定义一个Partition类(直接使用上次那个流量统计那个代码) 2:在Driver类中添加Partiton的分区个数 3:运行结果 一:合并(mapTask的合并) 原理图: 1:maptask并行度与决定机制 2 maptask工作机制 3:运用场景 1:多个小文件合并优化(减少 阅读全文
posted @ 2019-05-03 23:42 大魔王阿黎 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 每一个用户的统计总流量 一:编写代码之前。先了解一下hadoop中的序列化 JAVA 类型 HADOOP 类型 int IntWritable float FloatWritable long LongWritable double DoubleWritable string Text boolea 阅读全文
posted @ 2019-05-02 15:51 大魔王阿黎 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 一:单词计数 1:单词计数总流程图 2:代码实现 1:Map阶段 2:Reduce阶段 3:Driver阶段 4:打包程序提交到集群上运行 命令 (如果jar包没在当前目录下,记得写好路径): hadoop jar wordcount.jar it.dawn.YARNPra.wc_hdfs.Word 阅读全文
posted @ 2019-05-02 15:32 大魔王阿黎 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapre 阅读全文
posted @ 2019-05-02 00:09 大魔王阿黎 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 简介:这里先手写一个MR程序,大致实现一个单词计数程序。帮助后面学习MapReduce组件。 1:先自定义一个Mapper接口 2:定义一个Context类: 该类主要实现数据的传输,和数据的封装(这里用的一个HashMap进行封装的) 3:实现Mapper类(其实这里就是简化的Map和Reduce 阅读全文
posted @ 2019-05-01 00:18 大魔王阿黎 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 1:namenode+secondaryNameNode工作机制 2:datanode工作机制 3:HDFS中的通信(代理对象RPC) 下面用代码来实现基本的原理 1:服务端代码 2:代理对象接口 3:代理对象的实现 4:客服端 阅读全文
posted @ 2019-04-29 22:23 大魔王阿黎 阅读(116) 评论(0) 推荐(0) 编辑