摘要: 目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。 CDH框架默认调度器是Fair Scheduler。 具体设置详见:ya 阅读全文
posted @ 2022-07-27 20:36 小王同学学编程 阅读(155) 评论(0) 推荐(0) 编辑
摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1. Yarn基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Con 阅读全文
posted @ 2022-07-27 19:27 小王同学学编程 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 1. MapTask工作机制 (1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/v 阅读全文
posted @ 2022-07-27 17:13 小王同学学编程 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 1. MR工作流程 2. Shuffle机制 阅读全文
posted @ 2022-07-27 17:07 小王同学学编程 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 (1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 (2)压缩原则 1)运算密集型的Job,少用压缩。 2)IO密集型的Job,多用压缩。 2. MR支持的压缩编码 (1)压缩算法对比介绍 (2)压缩性能的比较 3. 压缩方式选择 压缩方 阅读全文
posted @ 2022-07-27 16:34 小王同学学编程 阅读(784) 评论(0) 推荐(0) 编辑
摘要: “ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清 阅读全文
posted @ 2022-07-27 15:17 小王同学学编程 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 概述 只支持引用类型。 可以再编译阶段约束操作的数据类型,并进行检查。 集合体系的全部接口和实现类都是支持泛型的使用的。 好处 统一数据类型。 把运行时期的问题提前到了编译期间,避免了强制类型转换可能出现的异常,因为编译阶段类型就能确定下来。 1. 自定义泛型类 泛型类的概述 定义类时同时定义了泛型 阅读全文
posted @ 2022-07-27 09:38 小王同学学编程 阅读(32) 评论(0) 推荐(0) 编辑
levels of contents