随笔档案「2021年1月11日」：spark学习进度15（SparkSQL是什么、初体验） ... - 喜欢爬的孩子

2021年1月11日

摘要：数据分析的方式：命令式在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 命令式的优点操作粒度更细, 能够控制数据的每一个处理环节操作更明确, 步骤更清晰, 容易维护支持非结构化数据的操作命令式的缺点需要一阅读全文

posted @ 2021-01-11 23:01 喜欢爬的孩子阅读(128) 评论(0) 推荐(0)

软件需求最佳实践-阅读笔记01

摘要：最近看的是第一章：需求实践现状分析：失败的根源： “在中国做软件太难了，客户连自己的需求都说不清楚”。这句话经常在我们耳边响起。但是正所谓：“它山之石可以攻玉”。在做项目的时候，很多项目都是进度超期、成本超支。最主要的原因之一就是项目的重新启动，在Standish Group总结的十大成功保证阅读全文

posted @ 2021-01-11 20:46 喜欢爬的孩子阅读(121) 评论(0) 推荐(0)

spark学习进度14（spark逻辑图和物理图和运行过程）

摘要：逻辑图：表达的是什么：逻辑图就是数据处理和存储的过程表达什么是RDD之间的依赖关系：什么是关系(依赖关系) ? 从算子视角上来看, splitRDD 通过 map 算子得到了 tupleRDD, 所以 splitRDD 和 tupleRDD 之间的关系是 map 但是仅仅这样说, 会不够全面阅读全文

posted @ 2021-01-11 17:07 喜欢爬的孩子阅读(283) 评论(0) 推荐(0)

spark学习进度13（spark总体介绍）

摘要：这一节基本上全是概念：：：更新的几种写法：部署：逻辑：其实 RDD 并没有什么严格的逻辑执行图和物理执行图的概念, 这里也只是借用这个概念, 从而让整个 RDD 的原理可以解释, 好理解. 对于 RDD 的逻辑执行图, 起始于第一个入口 RDD 的创建, 结束于 Action 算子执行之前, 阅读全文

posted @ 2021-01-11 13:45 喜欢爬的孩子阅读(108) 评论(0) 推荐(0)

spark学习进度12（RDD的Checkpoint）

摘要： 1. Checkpoint 目标 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斩断 RDD 的依赖链, 并且将数据存储在可靠的存储引擎中, 例如支持分布式存储和副本机制的 HDFS. Checkpoint 阅读全文

posted @ 2021-01-11 12:42 喜欢爬的孩子阅读(154) 评论(0) 推荐(0)

悄悄成长

公告