2018年3月24日

YARN的Fair Scheduler和Capacity Scheduler

摘要: 关于Scheduler YARN有四种调度机制:Fair Schedule,Capacity Schedule,FIFO以及Priority; 其中Fair Scheduler是资源池机制,进入到里面的应用是共享pool里面的资源;只有当资源配比发生紧张的时候,才会根据权重来进行调整; Capaci 阅读全文

posted @ 2018-03-24 22:24 张叫兽的技术研究院 阅读(1864) 评论(0) 推荐(0) 编辑

什么是Spark(四)集群

摘要: Driver,主要的职责是生成DAG以及生成物理执行计划(Physical Execution Plan);Application,Job以及Stage都是在这个组建中生成的; ClusterMaster,包括五类: 1)Apache YARN,Hadoop原生资源调度框架 2)Apache Mes 阅读全文

posted @ 2018-03-24 22:20 张叫兽的技术研究院 阅读(287) 评论(0) 推荐(0) 编辑

什么是spark(五)Spark SQL

摘要: Spark SQL Spark SQL主要分为两部分,一部分是Spark Sql在scala中直接,使用作为执行层面上的应用,本质上就是生成DAG的另外一种形式;其发生试下Driver中生成; 另外一部分是spark SQL作为查询引擎,供client端通过jdbc来进行调用; SparkConte 阅读全文

posted @ 2018-03-24 22:10 张叫兽的技术研究院 阅读(267) 评论(0) 推荐(0) 编辑

什么是spark(六)Spark中的对象

摘要: Spark中的对象 Spark的Conf,极简化的场景,可以设置一个空conf给sparkContext,在执行spark-submit的时候,系统会默认给sparkContext赋一个SparkConf; Application是顶级的,每个spark-submit就是一个application; 阅读全文

posted @ 2018-03-24 22:05 张叫兽的技术研究院 阅读(604) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见

摘要: 通过cloudera的旧版VM(centos6版本)跑spark,之后,想看一下日志研究一下job,stage以及task,压力很大的发现完全没有日志,180088页面打开后: Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 张叫兽的技术研究院 阅读(6250) 评论(0) 推荐(0) 编辑

Spark的CombineByKey

摘要: combineBykey关键是要明白里面的三个函数: 1. 当某个key第一次出现的时候,走的是第一个函数(createCombin);A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 张叫兽的技术研究院 阅读(289) 评论(0) 推荐(0) 编辑

导航