摘要:
转自:http://www.cnblogs.com/hseagle/p/3673132.html一、概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕sp... 阅读全文
摘要:
转自:http://www.cnblogs.com/hseagle/p/3673123.html在源码阅读时,需要重点把握以下两大主线。静态view即 RDD, transformation and action动态view即life of a job, 每一个job又分为多个stage,每一个st... 阅读全文
摘要:
转自:http://www.cnblogs.com/hseagle/p/3664933.html一、基本概念(Basic Concepts)RDD - resillient distributed dataset 弹性分布式数据集Operation - 作用于RDD的各种操作分为transforma... 阅读全文