随笔 - 61
文章 - 0
评论 - 547
阅读 -
129万
随笔分类 - Spark
关于Spark的一系列文章。
Spark 公共篇-InterfaceStability
摘要:本章内容: 1、源码 InterfaceStability 类包含三个注解,用于说明被他们注解的类型的稳定性。 2、总结 InterfaceStability 类包含三个注解,用于说明被他们注解的类型的稳定性。 @InterfaceStability.Stable: 说明主版本是稳定的,不同主版本之
阅读全文
Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop(中英双语)
摘要:文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, D
阅读全文
Deep Dive into Spark SQL’s Catalyst Optimizer(中英双语)
摘要:文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文 参考文献 https://datab
阅读全文
What’s new for Spark SQL in Apache Spark 1.3(中英双语)
摘要:文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL.
阅读全文
Introducing Apache Spark Datasets(中英双语)
摘要:文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spar
阅读全文
Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)
摘要:文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu
阅读全文
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets(中英双语)
摘要:文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset When to use them and why 什么时候用他们,为什
阅读全文
Spark 官方博文专区(目录)
摘要:关于转载一些 Spark 官方的文档以及 DataBricks 公司博文,本系列基本是中英双语,主要是为了提高自己的英语水平。 文章分类 spark databricks A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset
阅读全文
PySpark 的背后原理
摘要:文章正文 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还
阅读全文
Spark Scheduler内部原理剖析
摘要:文章正文 通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stag
阅读全文
Spark 底层网络模块
摘要:文章正文 对于分布式系统来说,网络是最基本的一环,其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此,Spark专门独立出基础网络模块spark-network,为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前,RPC
阅读全文
Spark 核心概念RDD
摘要:文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操
阅读全文
Spark 精品文章转载(目录)
摘要:学习 Spark 中,别人整理不错的文章,转载至本博客,方便自己学习,并按照不同的模块归档整理。每个文章作者能力不同,写文章所处的时间点不同,可能会略有差异,在阅读的同时,注意当时的文章的内容是否已经过时。 文章分类 Spark Core RDD Spark 核心概念RDD RPC Network
阅读全文
Apache Spark 2.3.0 重要特性介绍
摘要:文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao
阅读全文
Apache Spark 2.3.0 正式发布
摘要:本章内容: 待整理 参考文献: Spark Release 2.3.0
阅读全文
Apache Spark 2.2.0 新特性详细介绍
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2
阅读全文
Apache Spark 2.2.0 正式发布
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0正式发布 Spark Release 2.2.0 Apache Spark 2.2.0正式发布 Spark Release 2.2.0
阅读全文
Spark的历史与发展(目录)
摘要:对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为Aparch基金的顶级
阅读全文
Spark 论文篇-论文中英语单词集
摘要:resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神 树妖 present [ˈprɛznt] 目前的;现在的;出席的;[语法学]现在时的 提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽
阅读全文
Spark 核心篇-SparkEnv
摘要:本章内容: 1、功能概述 SparkEnv是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力,所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv,就可以将数据存储在存
阅读全文