随笔分类 - Spark RDD/Core概念学习系列

SparkSQL 与 Spark Core的关系

摘要：不多说，直接上干货！ SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，简单来讲： Spark SQL 支持很多种结构阅读全文

posted @ 2017-06-05 08:51 大数据和AI躺过的坑阅读(1140) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之RDD的五大特征

摘要：不多说，直接上干货！ RDD的五大特征分区 partitions 依赖 dependencies() 计算函数 computer(p,context) 分区策略(Pair RDD)-- partitioner() 本地性策略 preferredLocations(p) 阅读全文

posted @ 2017-06-04 18:20 大数据和AI躺过的坑阅读(2723) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之Pair RDD的分区控制

摘要：不多说，直接上干货！ Pair RDD的分区控制 Pair RDD的分区控制（1） Spark 中所有的键值对RDD 都可以进行分区控制自定义分区（2）自定义分区的好处： 1) 避免数据倾斜 2) 控制task并行度自定义分区方式阅读全文

posted @ 2017-06-04 18:15 大数据和AI躺过的坑阅读(630) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之Pair RDD的action操作

摘要：不多说，直接上干货！ Pair RDD的action操作所有基础RDD 支持的行动操作也都在pair RDD 上可用阅读全文

posted @ 2017-06-04 18:13 大数据和AI躺过的坑阅读(307) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之Pair RDD的transformation操作

摘要：不多说，直接上干货！ Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作，还提供了特有的转换操作。 Pair RDD转换操作2 阅读全文

posted @ 2017-06-04 18:11 大数据和AI躺过的坑阅读(419) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之什么是Pair RDD

摘要：不多说，直接上干货！什么是Pair RDD （1）包含键值对类型的RDD被称作Pair RDD。（2）Pair RDD通常用来进行聚合计算。（3）Pair RDD通常由普通RDD做ETL转换而来。关于ETL的知识，请移步 http://www.cnblogs.com/zlslch/categ 阅读全文

posted @ 2017-06-04 18:02 大数据和AI躺过的坑阅读(1199) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之action操作

摘要：不多说，直接上干货！ action操作阅读全文

posted @ 2017-06-04 17:44 大数据和AI躺过的坑阅读(463) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之transformation操作

摘要：不多说，直接上干货！ transformation操作惰性求值（1）RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。（2）读取数据到RDD的操作也是惰性的。（3）惰性求值的好处： a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤阅读全文

posted @ 2017-06-04 17:43 大数据和AI躺过的坑阅读(501) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之如何创建RDD

摘要：不多说，直接上干货！创建RDD 方式一：从集合创建RDD （1）makeRDD （2）Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数，而parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Ha 阅读全文

posted @ 2017-06-04 17:41 大数据和AI躺过的坑阅读(467) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之不同角度看RDD

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:36 大数据和AI躺过的坑阅读(356) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之典型RDD的特征

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:34 大数据和AI躺过的坑阅读(329) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之RDD的本质特征

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:32 大数据和AI躺过的坑阅读(318) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之RDD接口

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:26 大数据和AI躺过的坑阅读(517) 评论(0) 推荐(0) 编辑

SparkSQL 与 Spark Core的关系

摘要：Spark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的！ Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，简单来讲： Spark SQL 支持很多种结构化数据源，可以让你阅读全文

posted @ 2017-04-09 17:58 大数据和AI躺过的坑阅读(2729) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密（二十）

摘要：本博文的主要内容： 1、Hash Shuffle彻底解密 2、Shuffle Pluggable解密 3、Sorted Shuffle解密 4、Shuffle性能优化一：到底什么是Shuffle？ Shuffle中文翻译为“洗牌”，需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚阅读全文

posted @ 2016-10-09 15:55 大数据和AI躺过的坑阅读(6359) 评论(2) 推荐(0) 编辑

Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）

摘要：本期内容： 1、RDD依赖关系的本质内幕 2、依赖关系下的数据流视图 3、经典的RDD依赖关系解析 4、RDD依赖关系源码内幕 1、RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集，每个Transformation操作都会生成一个新的RDD，所以RDD之间就会形成类似流水线的前后依赖关系；在阅读全文

posted @ 2016-10-09 14:46 大数据和AI躺过的坑阅读(4529) 评论(0) 推荐(1) 编辑

Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）

摘要：1、rdd持久化 2、广播 3、累加器 1、rdd持久化通过spark-shell，可以快速的验证我们的想法和操作！启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群阅读全文

posted @ 2016-09-27 23:03 大数据和AI躺过的坑阅读(2414) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之RDD的容错机制（十七）

摘要：RDD的容错机制 RDD实现了基于Lineage的容错机制。RDD的转换关系，构成了compute chain，可以把这个compute chain认为是RDD之间演化的Lineage。在部分计算结果丢失时，只需要根据这个Lineage重算即可。图1中，假如RDD2所在的计算作业先计算的话，那么计阅读全文

posted @ 2016-09-20 11:33 大数据和AI躺过的坑阅读(3129) 评论(0) 推荐(0) 编辑

Spark RDD概念学习系列之细谈RDD的弹性（十六）

摘要：细谈RDD的弹性所谓，弹性，是指在内存不够时可以与磁盘进行交换。弹性之一：自动的进行内存和磁盘数据存储的切换弹性之二：基于Lineage（血缘）的高效容错弹性之三：Task如果失败会自动进行特定次数的重试弹性之四：Stage如果失败会自动进行特定次数的重试，而且只会计算失败的分片弹性之五阅读全文

posted @ 2016-09-20 09:10 大数据和AI躺过的坑阅读(1219) 评论(0) 推荐(0) 编辑

公告

欢迎您来到《大数据和人工智能躺过的坑》的3D彩色云标签，让您多份关注与留念。微信公众号平台1：大数据躺过的坑微信公众号平台2：今日热点在线微信公众号平台3 ：九哥九嫂小日子大数据和人工智能躺过的坑（总群）： 161156071 更多QQ技术分群，详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

昵称：大数据和AI躺过的坑
园龄： 9年3个月
粉丝： 1315
关注： 39

+加关注

2025年3月

日

一

二

三

四

五

六

大数据和人工智能躺过的坑

随笔分类 - Spark RDD/Core概念学习系列

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论