摘要:
2 阅读全文
摘要:
我认为本学期我的加分项有: 1、上课不迟到早退,认真完成课堂任务 2、认真完成大作业 课程建议: 这学期老师给我的感觉更好了,没有了以前上课的压抑与有抵制。 1、本学期项目需求的变更频繁,会导致自己有时候不知道要做什么、感到迷茫,虽然老师也说以后真正的项目必然会遇到各种各样的需求变更,但是希望老师可 阅读全文
摘要:
InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 1)问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高 阅读全文
摘要:
Hadoop序列化 2.1 序列化概述 1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2)为什么要序列化 一般来说,“活的”对象只生 阅读全文
摘要:
环境准备 (1)创建maven工程,MapReduceDemo (2)在pom.xml文件中添加如下依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artif 阅读全文
摘要:
提交到集群测试 集群上测试 (1)用maven打jar包,需要添加的打包插件依赖 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6.1</version> <configura 阅读全文
摘要:
MapReduce进程 一个完整的MapReduce程序在分布式运行时有三类实例进程: (1)MrAppMaster:负责整个程序的过程调度及状态协调。 (2)MapTask:负责Map阶段的整个数据处理流程。 (3)ReduceTask:负责Reduce阶段的整个数据处理流程。 1.5 官方Wor 阅读全文
摘要:
MapReduce概述 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1 阅读全文
摘要:
数据完整性 思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢? 如下是DataNode节点保证数据完整性的方法。 (1)当DataN 阅读全文