2018 年 3月 24 日随笔档案 - 张叫兽的技术研究院

YARN的Fair Scheduler和Capacity Scheduler

摘要：关于Scheduler YARN有四种调度机制：Fair Schedule，Capacity Schedule，FIFO以及Priority；其中Fair Scheduler是资源池机制，进入到里面的应用是共享pool里面的资源；只有当资源配比发生紧张的时候，才会根据权重来进行调整； Capaci 阅读全文

posted @ 2018-03-24 22:24 张叫兽的技术研究院阅读(1864) 评论(0) 推荐(0) 编辑

什么是Spark（四）集群

摘要： Driver，主要的职责是生成DAG以及生成物理执行计划（Physical Execution Plan）；Application，Job以及Stage都是在这个组建中生成的； ClusterMaster，包括五类： 1）Apache YARN，Hadoop原生资源调度框架 2）Apache Mes 阅读全文

posted @ 2018-03-24 22:20 张叫兽的技术研究院阅读(287) 评论(0) 推荐(0) 编辑

什么是spark（五）Spark SQL

摘要： Spark SQL Spark SQL主要分为两部分，一部分是Spark Sql在scala中直接，使用作为执行层面上的应用，本质上就是生成DAG的另外一种形式；其发生试下Driver中生成；另外一部分是spark SQL作为查询引擎，供client端通过jdbc来进行调用； SparkConte 阅读全文

posted @ 2018-03-24 22:10 张叫兽的技术研究院阅读(267) 评论(0) 推荐(0) 编辑

什么是spark（六）Spark中的对象

摘要： Spark中的对象 Spark的Conf，极简化的场景，可以设置一个空conf给sparkContext，在执行spark-submit的时候，系统会默认给sparkContext赋一个SparkConf； Application是顶级的，每个spark-submit就是一个application；阅读全文

posted @ 2018-03-24 22:05 张叫兽的技术研究院阅读(604) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见

摘要：通过cloudera的旧版VM（centos6版本）跑spark，之后，想看一下日志研究一下job，stage以及task，压力很大的发现完全没有日志，180088页面打开后： Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 张叫兽的技术研究院阅读(6250) 评论(0) 推荐(0) 编辑

Spark的CombineByKey

摘要： combineBykey关键是要明白里面的三个函数： 1. 当某个key第一次出现的时候，走的是第一个函数（createCombin）；A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 张叫兽的技术研究院阅读(289) 评论(0) 推荐(0) 编辑

下士闻道