上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页
摘要: 目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。 CDH框架默认调度器是Fair Scheduler。 具体设置详见:ya 阅读全文
posted @ 2022-07-27 20:36 小王同学学编程 阅读(155) 评论(0) 推荐(0) 编辑
摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1. Yarn基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Con 阅读全文
posted @ 2022-07-27 19:27 小王同学学编程 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 1. MapTask工作机制 (1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/v 阅读全文
posted @ 2022-07-27 17:13 小王同学学编程 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 1. MR工作流程 2. Shuffle机制 阅读全文
posted @ 2022-07-27 17:07 小王同学学编程 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 (1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 (2)压缩原则 1)运算密集型的Job,少用压缩。 2)IO密集型的Job,多用压缩。 2. MR支持的压缩编码 (1)压缩算法对比介绍 (2)压缩性能的比较 3. 压缩方式选择 压缩方 阅读全文
posted @ 2022-07-27 16:34 小王同学学编程 阅读(784) 评论(0) 推荐(0) 编辑
摘要: “ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清 阅读全文
posted @ 2022-07-27 15:17 小王同学学编程 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 概述 只支持引用类型。 可以再编译阶段约束操作的数据类型,并进行检查。 集合体系的全部接口和实现类都是支持泛型的使用的。 好处 统一数据类型。 把运行时期的问题提前到了编译期间,避免了强制类型转换可能出现的异常,因为编译阶段类型就能确定下来。 1. 自定义泛型类 泛型类的概述 定义类时同时定义了泛型 阅读全文
posted @ 2022-07-27 09:38 小王同学学编程 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 一、Reduce Join Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中 阅读全文
posted @ 2022-07-26 17:14 小王同学学编程 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 设置ReduceTask并行度(个数) ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置: // 默认值是1,手动设置为4 job.setNumReduceTasks(4); 注意: ( 阅读全文
posted @ 2022-07-24 16:50 小王同学学编程 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1. OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutFormat接口。 默认输出格式TextOutputFormat。 2. 自定义OutputFormat 应用场景 如:输出数据到MySQL / HBase 阅读全文
posted @ 2022-07-24 16:27 小王同学学编程 阅读(75) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页
levels of contents