摘要: 1.7 KeyValueTextInputFormat使用案例 1.需求 统计输入文件中每一行的第一个单词相同的行数。 (1)输入数据 banzhang ni hao xihuan hadoop banzhang banzhang ni hao xihuan hadoop banzhang (2)期 阅读全文
posted @ 2020-07-16 23:30 秋华 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 0 简介 1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行 阅读全文
posted @ 2020-07-16 23:21 秋华 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 1 序列化概述 2 自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7步。 (1)必须实现Writable接口 (2)反序列 阅读全文
posted @ 2020-07-16 23:12 秋华 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2 MapReduce优缺点 阅读全文
posted @ 2020-07-16 22:54 秋华 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 1 集群间数据拷贝 1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.t 阅读全文
posted @ 2020-07-16 22:43 秋华 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1 DataNode工作机制 DataNode工作机制,如图3-15所示。 图3-15 DataNode工作机制 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向NameN 阅读全文
posted @ 2020-07-16 22:13 秋华 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 1 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在 阅读全文
posted @ 2020-07-16 21:44 秋华 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图3-8所示。 图3-8 配置用户名称 (1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 (2)NameNode返回是否可以上传 阅读全文
posted @ 2020-07-16 20:47 秋华 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 2 HDFS的I/O流操作 2.1 HDFS文件上传 1.需求:把本地e盘上的banhua.txt文件上传到HDFS根目录 2.编写代码 @Test public void putFileToHDFS() throws IOException, InterruptedException, URISy 阅读全文
posted @ 2020-07-16 20:12 秋华 阅读(261) 评论(0) 推荐(0) 编辑