上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 70 下一页

2018年3月25日

什么是spark(二) RDD

摘要: 其实你会发现很多概念都是基于RDD提出来的,比如分区,缓存这些操作的对象其实都是RDD;所以不要讲spark的分区,这其实很不专业,分区其实是属于RDD的概念(只有pair RDD才有分区概念) RDD在(一)已经介绍了RDD,本质上是数据的描述(检索条件)以及处理描述(算法);等待着Action调 阅读全文

posted @ 2018-03-25 20:09 下士闻道 阅读(198) 评论(0) 推荐(0) 编辑

什么是Spark(三)数据的加载和保存

摘要: Spark内置了一些常见的文件格式的处理,包括text/json,csv,sequence等;Spark对于文件处理保持了开放性,还提供了可以通过InputFormat,OutputFormat来进行文件处理;这样只要是Hdfs支持文件格式,一定有对应的Format,只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 下士闻道 阅读(312) 评论(0) 推荐(0) 编辑

2018年3月24日

YARN的Fair Scheduler和Capacity Scheduler

摘要: 关于Scheduler YARN有四种调度机制:Fair Schedule,Capacity Schedule,FIFO以及Priority; 其中Fair Scheduler是资源池机制,进入到里面的应用是共享pool里面的资源;只有当资源配比发生紧张的时候,才会根据权重来进行调整; Capaci 阅读全文

posted @ 2018-03-24 22:24 下士闻道 阅读(1858) 评论(0) 推荐(0) 编辑

什么是Spark(四)集群

摘要: Driver,主要的职责是生成DAG以及生成物理执行计划(Physical Execution Plan);Application,Job以及Stage都是在这个组建中生成的; ClusterMaster,包括五类: 1)Apache YARN,Hadoop原生资源调度框架 2)Apache Mes 阅读全文

posted @ 2018-03-24 22:20 下士闻道 阅读(286) 评论(0) 推荐(0) 编辑

什么是spark(五)Spark SQL

摘要: Spark SQL Spark SQL主要分为两部分,一部分是Spark Sql在scala中直接,使用作为执行层面上的应用,本质上就是生成DAG的另外一种形式;其发生试下Driver中生成; 另外一部分是spark SQL作为查询引擎,供client端通过jdbc来进行调用; SparkConte 阅读全文

posted @ 2018-03-24 22:10 下士闻道 阅读(267) 评论(0) 推荐(0) 编辑

什么是spark(六)Spark中的对象

摘要: Spark中的对象 Spark的Conf,极简化的场景,可以设置一个空conf给sparkContext,在执行spark-submit的时候,系统会默认给sparkContext赋一个SparkConf; Application是顶级的,每个spark-submit就是一个application; 阅读全文

posted @ 2018-03-24 22:05 下士闻道 阅读(598) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见

摘要: 通过cloudera的旧版VM(centos6版本)跑spark,之后,想看一下日志研究一下job,stage以及task,压力很大的发现完全没有日志,180088页面打开后: Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 下士闻道 阅读(6195) 评论(0) 推荐(0) 编辑

Spark的CombineByKey

摘要: combineBykey关键是要明白里面的三个函数: 1. 当某个key第一次出现的时候,走的是第一个函数(createCombin);A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 下士闻道 阅读(287) 评论(0) 推荐(0) 编辑

2018年3月18日

XaaS简介(关于IssS,PaaS以及SaaS)

摘要: IaaS,比较容易理解,提供了一个操作系统以及操作系统的硬件支撑;阿里云; PaaS,提供了一个平台,或者说,使用PaaS是希望能够在上面建立自己的服务/应用,同时平台会提供一些API或者工具,能够降低你从头构建(比如基于IaaS)的成本;比如微软的Azure,Ali的阿里云MySql,Redis等 阅读全文

posted @ 2018-03-18 21:32 下士闻道 阅读(813) 评论(0) 推荐(0) 编辑

互联网的keyvalue处理

摘要: 今天在和许伟讨论系统配置页面得时候,许伟提到了“打通页面”的概念,当时我没太明白,后来才知道是指类似于cloudera里面的配置页面那种,不是列表页,而是展示+编辑在一个页面。刚才想了一下,其实对于这种keyvalue的模式处理,这种list风格其实是比较合适,否则表格形式,就三列,显得很空洞。 阅读全文

posted @ 2018-03-18 21:17 下士闻道 阅读(138) 评论(0) 推荐(0) 编辑

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 70 下一页

导航