随笔分类 - Spark学习之路
摘要:1. 集群规划 这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zook
阅读全文
摘要:1. reduceByKey reduceByKey的作用对像是(key, value)形式的rdd,而reduce有减少、压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每个key只保留一条记录,保留一条记录通常,有两种结果:一种是只保留我们希望的信息,比如每个key出现
阅读全文
摘要:转自:http://www.cnblogs.com/hseagle/p/3673132.html一、概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕sp...
阅读全文
摘要:转自:http://www.cnblogs.com/hseagle/p/3673123.html在源码阅读时,需要重点把握以下两大主线。静态view即 RDD, transformation and action动态view即life of a job, 每一个job又分为多个stage,每一个st...
阅读全文
摘要:转自:http://www.cnblogs.com/hseagle/p/3664933.html一、基本概念(Basic Concepts)RDD - resillient distributed dataset 弹性分布式数据集Operation - 作用于RDD的各种操作分为transforma...
阅读全文
摘要:转自:http://www.infoq.com/cn/articles/spark-core-rdd/感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时...
阅读全文