Spark - 随笔分类 - 虾皮

Spark 公共篇-InterfaceStability

摘要：本章内容： 1、源码 InterfaceStability 类包含三个注解，用于说明被他们注解的类型的稳定性。 2、总结 InterfaceStability 类包含三个注解，用于说明被他们注解的类型的稳定性。 @InterfaceStability.Stable：说明主版本是稳定的，不同主版本之阅读全文

posted @ 2018-04-10 20:48 虾皮阅读(1618) 评论(0) 推荐(1)

Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop（中英双语）

摘要：文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, D 阅读全文

posted @ 2018-04-08 21:20 虾皮阅读(577) 评论(0) 推荐(0)

Deep Dive into Spark SQL’s Catalyst Optimizer（中英双语）

摘要：文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文参考文献 https://datab 阅读全文

posted @ 2018-04-08 21:17 虾皮阅读(626) 评论(0) 推荐(0)

What’s new for Spark SQL in Apache Spark 1.3（中英双语）

摘要：文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL. 阅读全文

posted @ 2018-04-08 21:12 虾皮阅读(485) 评论(0) 推荐(0)

Introducing Apache Spark Datasets（中英双语）

摘要：文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spar 阅读全文

posted @ 2018-04-04 16:49 虾皮阅读(578) 评论(0) 推荐(0)

Introducing DataFrames in Apache Spark for Large Scale Data Science（中英双语）

摘要：文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu 阅读全文

posted @ 2018-04-04 15:49 虾皮阅读(625) 评论(0) 推荐(0)

A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets（中英双语）

摘要：文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客：RDD、DataFrame和Dataset When to use them and why 什么时候用他们，为什阅读全文

posted @ 2018-04-03 20:52 虾皮阅读(582) 评论(0) 推荐(0)

Spark 官方博文专区（目录）

摘要：关于转载一些 Spark 官方的文档以及 DataBricks 公司博文，本系列基本是中英双语，主要是为了提高自己的英语水平。文章分类 spark databricks A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset 阅读全文

posted @ 2018-04-03 20:38 虾皮阅读(974) 评论(0) 推荐(0)

PySpark 的背后原理

摘要：文章正文 Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark除了提供Scala/Java开发接口外，还阅读全文

posted @ 2018-04-02 17:30 虾皮阅读(5894) 评论(0) 推荐(0)

Spark Scheduler内部原理剖析

摘要：文章正文通过文章“Spark 核心概念RDD”我们知道，Spark的核心是根据RDD来实现的，Spark Scheduler则为Spark核心实现的重要一环，其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stag 阅读全文

posted @ 2018-04-02 16:51 虾皮阅读(2713) 评论(0) 推荐(1)

Spark 底层网络模块

摘要：文章正文对于分布式系统来说，网络是最基本的一环，其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此，Spark专门独立出基础网络模块spark-network，为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前，RPC 阅读全文

posted @ 2018-04-02 15:39 虾皮阅读(1175) 评论(0) 推荐(0)

Spark 核心概念RDD

摘要：文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets)，它是一种分布式的内存抽象，表示一个只读的记录分区的集合，它只能通过其他RDD转换而创建，为此，RDD支持丰富的转换操作(如map, join, filter, groupBy等)，通过这种转换操阅读全文

posted @ 2018-04-02 14:15 虾皮阅读(3100) 评论(0) 推荐(0)

Spark 精品文章转载（目录）

摘要：学习 Spark 中，别人整理不错的文章，转载至本博客，方便自己学习，并按照不同的模块归档整理。每个文章作者能力不同，写文章所处的时间点不同，可能会略有差异，在阅读的同时，注意当时的文章的内容是否已经过时。文章分类 Spark Core RDD Spark 核心概念RDD RPC Network 阅读全文

posted @ 2018-04-02 14:04 虾皮阅读(886) 评论(0) 推荐(0)

Apache Spark 2.3.0 重要特性介绍

摘要：文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。作者介绍 Sameer Agarwal, Xiao 阅读全文

posted @ 2018-03-20 17:46 虾皮阅读(1642) 评论(0) 推荐(0)

Apache Spark 2.3.0 正式发布

摘要：本章内容：待整理参考文献： Spark Release 2.3.0 阅读全文

posted @ 2018-03-20 17:44 虾皮阅读(670) 评论(0) 推荐(0)

Apache Spark 2.2.0 新特性详细介绍

摘要：本章内容：待整理参考文献： Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 阅读全文

posted @ 2018-03-20 17:39 虾皮阅读(982) 评论(0) 推荐(0)

Apache Spark 2.2.0 正式发布

摘要：本章内容：待整理参考文献： Apache Spark 2.2.0正式发布 Spark Release 2.2.0 Apache Spark 2.2.0正式发布 Spark Release 2.2.0 阅读全文

posted @ 2018-03-20 17:37 虾皮阅读(538) 评论(0) 推荐(0)

Spark的历史与发展（目录）

摘要：对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并于2013年成为了Aparch基金项目，并于2014年成为Aparch基金的顶级阅读全文

posted @ 2018-03-20 16:15 虾皮阅读(7796) 评论(0) 推荐(0)

Spark 论文篇-论文中英语单词集

摘要：resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神树妖 present [ˈprɛznt] 目前的;现在的;出席的;[语法学]现在时的提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽阅读全文

posted @ 2018-03-20 15:53 虾皮阅读(1358) 评论(0) 推荐(0)

Spark 核心篇-SparkEnv

摘要：本章内容： 1、功能概述 SparkEnv是Spark的执行环境对象，其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力，所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv，就可以将数据存储在存阅读全文

posted @ 2018-03-20 15:36 虾皮阅读(5511) 评论(0) 推荐(1)

随笔分类 - Spark

公告