上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 24 下一页
摘要: 具体 Shuffle 过程详解,如下: (1)MapTask 收集我们的 map()方法输出的 kv 对,放到内存缓冲区中 (2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的溢出文件 (4)在溢出过程及合并的过程中,都要调用 Partitioner 进行分区 阅读全文
posted @ 2021-09-30 22:53 宋振兴 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 今天我来学习这个TextInputFormat。则个玩意属于在大数据的基础中 1)FileInputFormat 实现类 思考:在运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制 格式文件、数据库表等。那么,针对不同的数据类型,MapReduce 是如何读取这些数据的呢 阅读全文
posted @ 2021-09-29 22:47 宋振兴 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 今天我想要好好的学习一手别的东西。 一定会好好学习别的东西的。 暂时停止一下大数据相关内容的学习。 阅读全文
posted @ 2021-09-28 22:42 宋振兴 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 今天学习MapReduce 框架原理 nputFormat 数据输入 3.1.1 切片与 MapTask 并行度决定机制 1)问题引出 MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。 思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并 阅读全文
posted @ 2021-09-27 22:22 宋振兴 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 今天我完成一个Bean序列化实例 package com.atguigu.mapreduce.writable; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; im 阅读全文
posted @ 2021-09-26 21:13 宋振兴 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 今天学习雅恩相关的知识点。 (1)MR 程序提交到客户端所在的节点。 (2)YarnRunner 向 ResourceManager 申请一个 Application。 (3)RM 将该应用程序的资源路径返回给 YarnRunner。 (4)该程序将运行所需资源提交到 HDFS 上。 (5)程序资源 阅读全文
posted @ 2021-09-25 22:28 宋振兴 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 今天我学习hadoop 的序列化相关知识点。 2.1 序列化概述 1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁 盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换 成内存中的对象。 2)为什么要序列 阅读全文
posted @ 2021-09-24 22:25 宋振兴 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 今天我偷懒了一天,啥也没有学习,哎。偷偷记上。 阅读全文
posted @ 2021-09-23 22:23 宋振兴 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 这个项目的最后的运行。 修改不带依赖的 jar 包名称为 wc.jar,并拷贝该 jar 包到 Hadoop 集群的 /opt/module/hadoop-3.1.3 路径。 ( 启动 Hadoop 集群 [atguigu@hadoop102 hadoop-3.1.3]sbin/start-dfs. 阅读全文
posted @ 2021-09-22 22:19 宋振兴 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 我昨天在idea中用的那个依赖,所对应的代码,这直接粘贴过来了,不知道为啥,省略没了。 package com.atguigu.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.io.IntWritab 阅读全文
posted @ 2021-09-21 22:16 宋振兴 阅读(21) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 24 下一页