随笔 - 61  文章 - 0  评论 - 547  阅读 - 129万 

随笔分类 -  转载

关于不错的精品文章。
One SQL to Rule Them All – an Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables(中英双语)
摘要:文章标题 One SQL to Rule Them All – an Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables 用SQL统一所有:一种有效的、语法惯用的流和表管理方法 synt 阅读全文
posted @ 2019-09-10 16:15 虾皮 阅读(897) 评论(1) 推荐(0) 编辑
ANTLR v4 专业术语集
摘要:记录《The Definitive ANTLR 4 Reference》中出现的专业术语: grammar 文法,一种形式化(formal)的语言描述。 syntax 语法 phrase 短语 lexer 词法分析器 parser 语法分析器 parse tree 语法分析树,表示语法如何匹配输入的 阅读全文
posted @ 2018-04-09 17:18 虾皮 阅读(724) 评论(0) 推荐(0) 编辑
ANTLR v4 权威参考笔记(目录)
摘要:ANTLR v4是一款强大的语法分析器生成器,可以用来读取、处理、执行和转换结构化文本或二进制文件。通过称为文法的形式化语言描述,ANTLR可以为该语言自动生成词法分析器。生成的语法分析器可以自动构建语法分析树,它是表示文法如何匹配输入的数据结构。ANTLR还可以自动生成树遍历器,用来访问树节点以执 阅读全文
posted @ 2018-04-09 16:39 虾皮 阅读(1116) 评论(0) 推荐(1) 编辑
Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop(中英双语)
摘要:文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, D 阅读全文
posted @ 2018-04-08 21:20 虾皮 阅读(562) 评论(0) 推荐(0) 编辑
Deep Dive into Spark SQL’s Catalyst Optimizer(中英双语)
摘要:文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文 参考文献 https://datab 阅读全文
posted @ 2018-04-08 21:17 虾皮 阅读(606) 评论(0) 推荐(0) 编辑
What’s new for Spark SQL in Apache Spark 1.3(中英双语)
摘要:文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL. 阅读全文
posted @ 2018-04-08 21:12 虾皮 阅读(472) 评论(0) 推荐(0) 编辑
Scala 隐式(implicit)详解
摘要:文章正文 通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 1、Spark 中的隐式思考 隐式转换是Scala的一大特性, 如果对其不是很了解, 在阅读Spark代码时候就会很迷 阅读全文
posted @ 2018-04-08 16:47 虾皮 阅读(35344) 评论(7) 推荐(16) 编辑
Introducing Apache Spark Datasets(中英双语)
摘要:文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spar 阅读全文
posted @ 2018-04-04 16:49 虾皮 阅读(542) 评论(0) 推荐(0) 编辑
Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)
摘要:文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu 阅读全文
posted @ 2018-04-04 15:49 虾皮 阅读(598) 评论(0) 推荐(0) 编辑
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets(中英双语)
摘要:文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset When to use them and why 什么时候用他们,为什 阅读全文
posted @ 2018-04-03 20:52 虾皮 阅读(554) 评论(0) 推荐(0) 编辑
Spark 官方博文专区(目录)
摘要:关于转载一些 Spark 官方的文档以及 DataBricks 公司博文,本系列基本是中英双语,主要是为了提高自己的英语水平。 文章分类 spark databricks A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset 阅读全文
posted @ 2018-04-03 20:38 虾皮 阅读(956) 评论(0) 推荐(0) 编辑
PySpark 的背后原理
摘要:文章正文 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还 阅读全文
posted @ 2018-04-02 17:30 虾皮 阅读(5772) 评论(0) 推荐(0) 编辑
Spark Scheduler内部原理剖析
摘要:文章正文 通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stag 阅读全文
posted @ 2018-04-02 16:51 虾皮 阅读(2628) 评论(0) 推荐(1) 编辑
Spark 底层网络模块
摘要:文章正文 对于分布式系统来说,网络是最基本的一环,其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此,Spark专门独立出基础网络模块spark-network,为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前,RPC 阅读全文
posted @ 2018-04-02 15:39 虾皮 阅读(1144) 评论(0) 推荐(0) 编辑
Spark 核心概念RDD
摘要:文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操 阅读全文
posted @ 2018-04-02 14:15 虾皮 阅读(3024) 评论(0) 推荐(0) 编辑
Apache Spark 2.3.0 重要特性介绍
摘要:文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao 阅读全文
posted @ 2018-03-20 17:46 虾皮 阅读(1610) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示