爱吃麻辣烫呀

2022年1月

摘要： Windows平台下IDEA+Spark本地开发环境搭建过程 1.安装Java，配置Java环境变量 2.安装Scala，配置Scala环境变量 3.安装Maven，配置Maven环境变量 4.IDEA下载与配置 5.在IDEA启动之前，安装scala插件（Configure->Plugins） 6 阅读全文

posted @ 2022-01-28 15:56 爱吃麻辣烫呀阅读(387) 评论(0) 推荐(0)

程序员的7堂职业课学习笔记

摘要：第1章程序员都在因为什么而焦虑 1.1 最主要的来源：迷茫解决这一问题，就在于先定好目标，再上路。路上的芝麻再多，你想想自己终点要摘的那个大西瓜，就忍住了。 1.2 一个客观的来源：技术更新一小步一小步地往前走，也好过原地打转。 1.3 人性的弱点：攀比 1.4 不得不考虑的现实因素：生活对阅读全文

posted @ 2022-01-19 13:38 爱吃麻辣烫呀阅读(142) 评论(0) 推荐(0)

099-Spark-源码-SparkSubmit源码和任务执行流程

摘要： SparkSubmit -- main -- doSubmit // 解析参数 -- parseArguments // master => --master => yarn // mainClass => --class => SparkPi(WordCount) -- parse -- subm 阅读全文

posted @ 2022-01-09 16:45 爱吃麻辣烫呀阅读(45) 评论(0) 推荐(0)

学习方法

摘要： 1、https://blog.csdn.net/qq_30089191/article/details/73742425?utm_medium=distribute.pc_relevant.none-task-blog-2defaultOPENSEARCHdefault-3.control&dist 阅读全文

posted @ 2022-01-09 14:52 爱吃麻辣烫呀阅读(40) 评论(0) 推荐(0)

098-Spark-RDD-广播变量

摘要： ![](https://img2020.cnblogs.com/blog/2673452/202201/2673452-20220109142930318-1080775587.png) 阅读全文

posted @ 2022-01-09 14:30 爱吃麻辣烫呀阅读(14) 评论(0) 推荐(0)

094-Spark-RDD-累加器

摘要：累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。阅读全文

posted @ 2022-01-09 13:54 爱吃麻辣烫呀阅读(54) 评论(0) 推荐(0)

093-Spark-RDD-文件的保存和读取

摘要： ![](https://img2020.cnblogs.com/blog/2673452/202201/2673452-20220109132127201-1543280311.png) ![](https://img2020.cnblogs.com/blog/2673452/202201/2673452-20220109132149292-840974292.png) 阅读全文

posted @ 2022-01-09 13:22 爱吃麻辣烫呀阅读(17) 评论(0) 推荐(0)

090-Spark-RDD-自定义分区器

摘要： Spark目前支持Hash分区和Range分区，和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区，进而决定了Reduce的个数。阅读全文

posted @ 2022-01-09 13:17 爱吃麻辣烫呀阅读(53) 评论(0) 推荐(0)

089、Spark-RDD-检查点

摘要：所谓的检查点其实就是通过将RDD中间结果写入磁盘由于血缘依赖过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果检查点之后有节点出现问题，可以从检查点开始重做血缘，减少了开销。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。缓存和检查点区别阅读全文

posted @ 2022-01-09 12:45 爱吃麻辣烫呀阅读(54) 评论(0) 推荐(0)

088、Spark-RDD-持久化&缓存

摘要： 1、RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action算子时，该RDD将会被缓存在计算节点的内存中，并供后面重用。缓存有可能丢失，或者存储于内存的数据由阅读全文

posted @ 2022-01-09 11:47 爱吃麻辣烫呀阅读(57) 评论(0) 推荐(0)

公告