随笔 - 61
文章 - 0
评论 - 547
阅读 -
129万
04 2018 档案
Effective Java 第三版笔记(目录)
摘要:《Effective Java, Third Edition》一书英文版已经出版,这本书的第二版想必很多人都读过,号称Java四大名著之一,不过第二版2009年出版,到现在已经将近8年的时间,但随着Java 6,7,8,甚至9的发布,Java语言发生了深刻的变化。 读书笔记 第1章 介绍 (Intr
阅读全文
Spark 公共篇-InterfaceStability
摘要:本章内容: 1、源码 InterfaceStability 类包含三个注解,用于说明被他们注解的类型的稳定性。 2、总结 InterfaceStability 类包含三个注解,用于说明被他们注解的类型的稳定性。 @InterfaceStability.Stable: 说明主版本是稳定的,不同主版本之
阅读全文
ANTLR v4 专业术语集
摘要:记录《The Definitive ANTLR 4 Reference》中出现的专业术语: grammar 文法,一种形式化(formal)的语言描述。 syntax 语法 phrase 短语 lexer 词法分析器 parser 语法分析器 parse tree 语法分析树,表示语法如何匹配输入的
阅读全文
ANTLR v4 权威参考笔记(目录)
摘要:ANTLR v4是一款强大的语法分析器生成器,可以用来读取、处理、执行和转换结构化文本或二进制文件。通过称为文法的形式化语言描述,ANTLR可以为该语言自动生成词法分析器。生成的语法分析器可以自动构建语法分析树,它是表示文法如何匹配输入的数据结构。ANTLR还可以自动生成树遍历器,用来访问树节点以执
阅读全文
Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop(中英双语)
摘要:文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, D
阅读全文
Deep Dive into Spark SQL’s Catalyst Optimizer(中英双语)
摘要:文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文 参考文献 https://datab
阅读全文
What’s new for Spark SQL in Apache Spark 1.3(中英双语)
摘要:文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL.
阅读全文
Scala 隐式(implicit)详解
摘要:文章正文 通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 1、Spark 中的隐式思考 隐式转换是Scala的一大特性, 如果对其不是很了解, 在阅读Spark代码时候就会很迷
阅读全文
Introducing Apache Spark Datasets(中英双语)
摘要:文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spar
阅读全文
Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)
摘要:文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu
阅读全文
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets(中英双语)
摘要:文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset When to use them and why 什么时候用他们,为什
阅读全文
Spark 官方博文专区(目录)
摘要:关于转载一些 Spark 官方的文档以及 DataBricks 公司博文,本系列基本是中英双语,主要是为了提高自己的英语水平。 文章分类 spark databricks A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset
阅读全文
设计数据密集型应用(中英双语)
摘要:中文名:《设计数据密集型应用》 英文名:《Designing Data-Intensive Applications》 作者: Martin Kleppmann 英文电子书:Designing Data-Intensive Applications 中文翻译书:设计数据密集型应用
阅读全文
PySpark 的背后原理
摘要:文章正文 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还
阅读全文
Spark Scheduler内部原理剖析
摘要:文章正文 通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stag
阅读全文
Spark 底层网络模块
摘要:文章正文 对于分布式系统来说,网络是最基本的一环,其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此,Spark专门独立出基础网络模块spark-network,为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前,RPC
阅读全文
Spark 核心概念RDD
摘要:文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操
阅读全文
Spark 精品文章转载(目录)
摘要:学习 Spark 中,别人整理不错的文章,转载至本博客,方便自己学习,并按照不同的模块归档整理。每个文章作者能力不同,写文章所处的时间点不同,可能会略有差异,在阅读的同时,注意当时的文章的内容是否已经过时。 文章分类 Spark Core RDD Spark 核心概念RDD RPC Network
阅读全文