上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 70 下一页

2018年3月25日

什么是spark(一) 分区以及和MR的区别

摘要: 什么是spark,是一个分布式计算平台,或者说是分布式计算引擎,他的职责就是将指定的数据读入到各个node的内存中,然后计算。所以spark是具有泛化性质的,只要数据源是可读入的,读到内存里面之后,处理就和数据源没有关系了,你是HBASE,kudu,还是parquet都无所谓了。 什么是RDD,弹性 阅读全文

posted @ 2018-03-25 20:17 张叫兽的技术研究院 阅读(1154) 评论(0) 推荐(0) 编辑

什么是spark(二) RDD

摘要: 其实你会发现很多概念都是基于RDD提出来的,比如分区,缓存这些操作的对象其实都是RDD;所以不要讲spark的分区,这其实很不专业,分区其实是属于RDD的概念(只有pair RDD才有分区概念) RDD在(一)已经介绍了RDD,本质上是数据的描述(检索条件)以及处理描述(算法);等待着Action调 阅读全文

posted @ 2018-03-25 20:09 张叫兽的技术研究院 阅读(200) 评论(0) 推荐(0) 编辑

什么是Spark(三)数据的加载和保存

摘要: Spark内置了一些常见的文件格式的处理,包括text/json,csv,sequence等;Spark对于文件处理保持了开放性,还提供了可以通过InputFormat,OutputFormat来进行文件处理;这样只要是Hdfs支持文件格式,一定有对应的Format,只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 张叫兽的技术研究院 阅读(313) 评论(0) 推荐(0) 编辑

2018年3月24日

YARN的Fair Scheduler和Capacity Scheduler

摘要: 关于Scheduler YARN有四种调度机制:Fair Schedule,Capacity Schedule,FIFO以及Priority; 其中Fair Scheduler是资源池机制,进入到里面的应用是共享pool里面的资源;只有当资源配比发生紧张的时候,才会根据权重来进行调整; Capaci 阅读全文

posted @ 2018-03-24 22:24 张叫兽的技术研究院 阅读(1864) 评论(0) 推荐(0) 编辑

什么是Spark(四)集群

摘要: Driver,主要的职责是生成DAG以及生成物理执行计划(Physical Execution Plan);Application,Job以及Stage都是在这个组建中生成的; ClusterMaster,包括五类: 1)Apache YARN,Hadoop原生资源调度框架 2)Apache Mes 阅读全文

posted @ 2018-03-24 22:20 张叫兽的技术研究院 阅读(287) 评论(0) 推荐(0) 编辑

什么是spark(五)Spark SQL

摘要: Spark SQL Spark SQL主要分为两部分,一部分是Spark Sql在scala中直接,使用作为执行层面上的应用,本质上就是生成DAG的另外一种形式;其发生试下Driver中生成; 另外一部分是spark SQL作为查询引擎,供client端通过jdbc来进行调用; SparkConte 阅读全文

posted @ 2018-03-24 22:10 张叫兽的技术研究院 阅读(267) 评论(0) 推荐(0) 编辑

什么是spark(六)Spark中的对象

摘要: Spark中的对象 Spark的Conf,极简化的场景,可以设置一个空conf给sparkContext,在执行spark-submit的时候,系统会默认给sparkContext赋一个SparkConf; Application是顶级的,每个spark-submit就是一个application; 阅读全文

posted @ 2018-03-24 22:05 张叫兽的技术研究院 阅读(604) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见

摘要: 通过cloudera的旧版VM(centos6版本)跑spark,之后,想看一下日志研究一下job,stage以及task,压力很大的发现完全没有日志,180088页面打开后: Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 张叫兽的技术研究院 阅读(6250) 评论(0) 推荐(0) 编辑

Spark的CombineByKey

摘要: combineBykey关键是要明白里面的三个函数: 1. 当某个key第一次出现的时候,走的是第一个函数(createCombin);A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 张叫兽的技术研究院 阅读(289) 评论(0) 推荐(0) 编辑

2018年3月18日

XaaS简介(关于IssS,PaaS以及SaaS)

摘要: IaaS,比较容易理解,提供了一个操作系统以及操作系统的硬件支撑;阿里云; PaaS,提供了一个平台,或者说,使用PaaS是希望能够在上面建立自己的服务/应用,同时平台会提供一些API或者工具,能够降低你从头构建(比如基于IaaS)的成本;比如微软的Azure,Ali的阿里云MySql,Redis等 阅读全文

posted @ 2018-03-18 21:32 张叫兽的技术研究院 阅读(815) 评论(0) 推荐(0) 编辑

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 70 下一页

导航