随笔 - 61
文章 - 0
评论 - 547
阅读 -
129万
03 2018 档案
Apache Spark 2.3.0 重要特性介绍
摘要:文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao
阅读全文
Apache Spark 2.3.0 正式发布
摘要:本章内容: 待整理 参考文献: Spark Release 2.3.0
阅读全文
Apache Spark 2.2.0 新特性详细介绍
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2
阅读全文
Apache Spark 2.2.0 正式发布
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0正式发布 Spark Release 2.2.0 Apache Spark 2.2.0正式发布 Spark Release 2.2.0
阅读全文
Spark的历史与发展(目录)
摘要:对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为Aparch基金的顶级
阅读全文
Spark 论文篇-论文中英语单词集
摘要:resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神 树妖 present [ˈprɛznt] 目前的;现在的;出席的;[语法学]现在时的 提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽
阅读全文
Spark 核心篇-SparkEnv
摘要:本章内容: 1、功能概述 SparkEnv是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力,所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv,就可以将数据存储在存
阅读全文
Spark 核心篇-SparkContext
摘要:本章内容: 1、功能描述 本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext
阅读全文
Spark 准备篇-基本原理
摘要:本章内容: 待整理 参考文献: 《深入理解SPARK:核心思想与源码分析》(第2章) Spark的作业提交及运行流程的异同
阅读全文
Spark 准备篇-环境搭建
摘要:本章内容: 待整理 参考文献: 学习Spark——环境搭建(Mac版) 《深入理解SPARK:核心思想与源码分析》(前言及第1章) 搭建Spark源码研读和代码调试的开发环境 Reading Spark Souce Code in IntelliJ IDEA IntelliJ IDEA For Ma
阅读全文
Spark 论文篇-大型集群上的快速和通用数据处理架构(中英双语)
摘要:论文内容: 待整理 参考文献: An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构
阅读全文
Spark 论文篇-RDD:一种为内存化集群计算设计的容错抽象(中英双语)
摘要:论文内容: 待整理 参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tatha
阅读全文
Spark 论文篇-Spark:工作组上的集群计算的框架(中英双语)
摘要:论文内容: 待整理 参考文献: Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotClou
阅读全文
Spark源码分析系列(目录)
摘要:记录自己学习研究 Spark 的探索过程,为后续总结奠定基础。 本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,下载对应的 Spark 版本。 图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack) 这里要先说BDAS(伯克利数
阅读全文