摘要: Hadoop Yarn解析: 1. Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn,我们可以在同一个大数据集群上同时运行多个计算框架。例如:Spark、MapReduce、Storm等 2. Yarn基本工作流程: 注意:Container要向No 阅读全文
posted @ 2017-12-14 21:54 一剑侵心 阅读(6248) 评论(1) 推荐(0) 编辑
摘要: 从Spark Runtime的角度来讲由五大核心对象:Master、Worker、Executor、Driver、CoarseGrainedExecutorBacked; Spark在做分布式集群系统设计的时候,最大化功能独立、模块化封装具体独立的对象、强内聚、松耦合。 Spark集群的启动及任务提 阅读全文
posted @ 2017-12-14 21:14 一剑侵心 阅读(672) 评论(1) 推荐(0) 编辑
摘要: 提交Spark程序的机器一般一定和Spark集群在同样的网络环境中(Driver频繁和Executors通信),且其配置和普通的Worker一致 1. Driver: 具有main方法的,初始化 SparkContext 的程序。Driver运行在提交Spark任务的机器上。 Driver 部分的代 阅读全文
posted @ 2017-12-14 19:37 一剑侵心 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 总的来说,需要考虑以下两点: 1. 有效地运用集群资源去减少每个批次处理的时间 2. 正确的设置batch size,以使得处理速度能跟上接收速度 一. 为了减少处理时间,主要有以下几个优化点: 1. 接收数据的并行度。 每个InputDStream只创建一个Receiver用于接收数据,如果接收数 阅读全文
posted @ 2017-12-14 17:10 一剑侵心 阅读(1006) 评论(0) 推荐(0) 编辑