2017 年 12月 14 日随笔档案 - 一剑侵心

2017年12月14日

摘要： Hadoop Yarn解析： 1. Yarn是Hadoop推出整个分布式（大数据）集群的资源管理器，负责资源的管理和分配，基于Yarn，我们可以在同一个大数据集群上同时运行多个计算框架。例如：Spark、MapReduce、Storm等 2. Yarn基本工作流程：注意：Container要向No 阅读全文

posted @ 2017-12-14 21:54 一剑侵心阅读(6248) 评论(1) 推荐(0) 编辑

Spark Runtime概述

摘要：从Spark Runtime的角度来讲由五大核心对象：Master、Worker、Executor、Driver、CoarseGrainedExecutorBacked； Spark在做分布式集群系统设计的时候，最大化功能独立、模块化封装具体独立的对象、强内聚、松耦合。 Spark集群的启动及任务提阅读全文

posted @ 2017-12-14 21:14 一剑侵心阅读(672) 评论(1) 推荐(0) 编辑

Spark内核概述

摘要：提交Spark程序的机器一般一定和Spark集群在同样的网络环境中（Driver频繁和Executors通信），且其配置和普通的Worker一致 1. Driver：具有main方法的，初始化 SparkContext 的程序。Driver运行在提交Spark任务的机器上。 Driver 部分的代阅读全文

posted @ 2017-12-14 19:37 一剑侵心阅读(371) 评论(0) 推荐(0) 编辑

Spark Streaming 官网上提到的几点调优

摘要：总的来说，需要考虑以下两点： 1. 有效地运用集群资源去减少每个批次处理的时间 2. 正确的设置batch size，以使得处理速度能跟上接收速度一. 为了减少处理时间，主要有以下几个优化点： 1. 接收数据的并行度。每个InputDStream只创建一个Receiver用于接收数据，如果接收数阅读全文

posted @ 2017-12-14 17:10 一剑侵心阅读(1006) 评论(0) 推荐(0) 编辑

一剑侵心

公告