随笔 - 61  文章 - 0  评论 - 547  阅读 - 129万 
03 2018 档案
Apache Spark 2.3.0 重要特性介绍
摘要:文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao 阅读全文
posted @ 2018-03-20 17:46 虾皮 阅读(1610) 评论(0) 推荐(0) 编辑
Apache Spark 2.3.0 正式发布
摘要:本章内容: 待整理 参考文献: Spark Release 2.3.0 阅读全文
posted @ 2018-03-20 17:44 虾皮 阅读(661) 评论(0) 推荐(0) 编辑
Apache Spark 2.2.0 新特性详细介绍
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 阅读全文
posted @ 2018-03-20 17:39 虾皮 阅读(968) 评论(0) 推荐(0) 编辑
Apache Spark 2.2.0 正式发布
摘要:本章内容: 待整理 参考文献: Apache Spark 2.2.0正式发布 Spark Release 2.2.0 Apache Spark 2.2.0正式发布 Spark Release 2.2.0 阅读全文
posted @ 2018-03-20 17:37 虾皮 阅读(521) 评论(0) 推荐(0) 编辑
Spark的历史与发展(目录)
摘要:对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为Aparch基金的顶级 阅读全文
posted @ 2018-03-20 16:15 虾皮 阅读(7672) 评论(0) 推荐(0) 编辑
Spark 论文篇-论文中英语单词集
摘要:resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神 树妖 present [ˈprɛznt] 目前的;现在的;出席的;[语法学]现在时的 提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽 阅读全文
posted @ 2018-03-20 15:53 虾皮 阅读(1298) 评论(0) 推荐(0) 编辑
Spark 核心篇-SparkEnv
摘要:本章内容: 1、功能概述 SparkEnv是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力,所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv,就可以将数据存储在存 阅读全文
posted @ 2018-03-20 15:36 虾皮 阅读(5411) 评论(0) 推荐(1) 编辑
Spark 核心篇-SparkContext
摘要:本章内容: 1、功能描述 本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext 阅读全文
posted @ 2018-03-20 15:33 虾皮 阅读(36534) 评论(0) 推荐(7) 编辑
Spark 准备篇-基本原理
摘要:本章内容: 待整理 参考文献: 《深入理解SPARK:核心思想与源码分析》(第2章) Spark的作业提交及运行流程的异同 阅读全文
posted @ 2018-03-20 15:30 虾皮 阅读(1372) 评论(0) 推荐(0) 编辑
Spark 准备篇-环境搭建
摘要:本章内容: 待整理 参考文献: 学习Spark——环境搭建(Mac版) 《深入理解SPARK:核心思想与源码分析》(前言及第1章) 搭建Spark源码研读和代码调试的开发环境 Reading Spark Souce Code in IntelliJ IDEA IntelliJ IDEA For Ma 阅读全文
posted @ 2018-03-20 15:27 虾皮 阅读(1519) 评论(0) 推荐(0) 编辑
Spark 论文篇-大型集群上的快速和通用数据处理架构(中英双语)
摘要:论文内容: 待整理 参考文献: An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构 阅读全文
posted @ 2018-03-20 15:00 虾皮 阅读(1410) 评论(0) 推荐(0) 编辑
Spark 论文篇-RDD:一种为内存化集群计算设计的容错抽象(中英双语)
摘要:论文内容: 待整理 参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tatha 阅读全文
posted @ 2018-03-20 14:28 虾皮 阅读(2025) 评论(0) 推荐(0) 编辑
Spark 论文篇-Spark:工作组上的集群计算的框架(中英双语)
摘要:论文内容: 待整理 参考文献: Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotClou 阅读全文
posted @ 2018-03-20 14:22 虾皮 阅读(3646) 评论(0) 推荐(0) 编辑
Spark源码分析系列(目录)
摘要:记录自己学习研究 Spark 的探索过程,为后续总结奠定基础。 本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,下载对应的 Spark 版本。 图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack) 这里要先说BDAS(伯克利数 阅读全文
posted @ 2018-03-20 14:08 虾皮 阅读(14645) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示