摘要: InputFormat 数据输入 切片与 MapTask 并行度决定机制 MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度 数据块:Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。 数据切片:数据切片只是在逻辑上对输 阅读全文
posted @ 2021-04-08 18:15 叮叮叮叮叮叮当 阅读(130) 评论(0) 推荐(0) 编辑
摘要: MapReduce 定义 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上、 MapReduce 阅读全文
posted @ 2021-04-08 16:57 叮叮叮叮叮叮当 阅读(288) 评论(0) 推荐(0) 编辑
摘要: ##HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 是分布式文件管理系统中的一种 ##HDFS定义 HDFS是一个文件系统,用于存储文件,通 阅读全文
posted @ 2021-04-08 14:33 叮叮叮叮叮叮当 阅读(331) 评论(0) 推荐(0) 编辑