上一页 1 2 3 4 5 6 7 8 ··· 14 下一页
摘要: 数据仓库概念 数据仓库,英文名称为 Data Warehouse ,可简写为 DW 或 DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析报告和决策支持目的而创建。 数据仓库是数据库概念的升级。 从逻辑上理解, 数据库和数据仓库没有区别, 都是通过数据库软件实现的存放 阅读全文
posted @ 2021-12-11 00:05 追こするれい的人 阅读(360) 评论(0) 推荐(0)
摘要: 什么是资源调度器 理想情况下,我们应用对 Yarn 资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。 在 Yarn 中,负责给应用分配资源的就是 Scheduler(资源调度器)。其实调度本身就是一个难题,很 阅读全文
posted @ 2021-12-09 18:18 追こするれい的人 阅读(66) 评论(0) 推荐(0)
摘要: Yarn 工作机制 客户端向 ResourceManager 申请运行程序 ResourceManager 检查是否有运行权限,如果有就会返回 jobid 和程序提交的资源路径 客户端根据 ResourceManager 返回的信息,然后执行提交程序的资源到 /tmp/.../job_id目录下( 阅读全文
posted @ 2021-12-09 18:00 追こするれい的人 阅读(48) 评论(0) 推荐(0)
摘要: 基本概念 Yarn 是 Hadoop 三大核心组件之一,是一个分布式程序的运行调度平台 Yarn 中有两大核心角色: Resource Manager 接受用户提交的分布式计算程序,并为其划分资源 管理、监控各个 Node Manager 上的资源情况,以便于均衡负载 Node Manager 管理 阅读全文
posted @ 2021-12-09 17:53 追こするれい的人 阅读(167) 评论(0) 推荐(0)
摘要: MapReduce 内部核心工作机制 用户编写的 MapReduce 程序提交给 Yarn 集群运行,首先 Job 客户端会根据程序中的输入文件目录去扫描所有文件,并按照文件切片大小(BlockSize,默认 128M)进行切片,切片完成后会将切片信息写入到 ArrayList 集合中,然后进行序列 阅读全文
posted @ 2021-12-09 16:58 追こするれい的人 阅读(50) 评论(0) 推荐(0)
摘要: Combiner 组件的作用 MapReduce 中的 Combiner 组件就是为了避免 MapTask 任务和 ReduceTask 任务之间的过多的数据传输而设置的 MapReduce 程序可以在 MapTask 阶段自定义一个 Combiner 组件进行聚合 Combiner 的工作机制类似 阅读全文
posted @ 2021-12-05 20:23 追こするれい的人 阅读(185) 评论(0) 推荐(0)
摘要: MapReduce 默认排序 MapReduce 中Mapper 和 Reducer 中的 <Key,Value> 键值对,Key 值是基本类型,那么将按照基本类型对应的 Key 进行排序(如 int类型的 IntWritable,long 类型的 LongWritable,以及 String类型的 阅读全文
posted @ 2021-12-05 20:00 追こするれい的人 阅读(232) 评论(0) 推荐(0)
摘要: MapReduce 默认分组 MapReduce 程序的 Map 阶段将按行读取数据,然后 MapTask 任务输出 <Key,Value> 键值对 MapReduce 程序的 Reduce 阶段先按照分区器将 <Key,Value> 键值对划分到不同的分区中(即 ReduceTask) MapRe 阅读全文
posted @ 2021-12-03 17:51 追こするれい的人 阅读(203) 评论(0) 推荐(0)
摘要: ReduceTask 并行度 MapTask 并行度的数量由切片数决定 ResuceTask 并行度的数量是需要用户手动设置(如果不设置默认为 1) MapReduce 程序最终生成的结果文件 (part-r-xxxxx) 数量由 ReduceTask 并行度的数量决定 ReduceTask 并行度 阅读全文
posted @ 2021-12-03 17:15 追こするれい的人 阅读(546) 评论(0) 推荐(0)
摘要: MapReduce 输入数据组件 MapReduce 提供的全部输入数据组件(Map 读入文件)都继承于 FileInputFormat 抽象类 MapReduce 内置常用输入数据组件 TextInputFormat(默认) TextInputFormat 读取文件得到 InputSplit,然后 阅读全文
posted @ 2021-12-02 22:49 追こするれい的人 阅读(92) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 14 下一页