| | | |

2024年1月23日

摘要：今日学习了如何使用Spark中的累加器功能，并按要求完成了广播变量加上累加器的统计单词的小案例累加器的功能？在分布式执行的代码中，累加器accumulator可以进行全局累加小案例：在下图文本中实现1.统计特殊符号出现次数2.对单词出现进行统计原码： # coding:utf8from py 阅读全文

posted @ 2024-01-23 18:35 云云云云云云云云阅读(48) 评论(0) 推荐(0)

1/22 学习进度笔记

摘要：今日因个人原因，全天忙碌无时间学习，故请假一天没有进度笔记阅读全文

posted @ 2024-01-23 18:30 云云云云云云云云阅读(22) 评论(0) 推荐(0)

2024年1月21日

1/21 学习进度笔记

摘要：今日学习Spark中的广播变量：使用场景：本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象封装为广播变量可以节省： 1.网络IO的次数 2.Eexcutor的内存占用使用方法：阅读全文

posted @ 2024-01-21 19:50 云云云云云云云云阅读(17) 评论(0) 推荐(0)

2024年1月20日

1/20 学习进度笔记

摘要：完成了搜索引擎日志分析小案例数据由两万条一下六列相同格式的单个数据组成分别对应:搜索时间用户ID 搜索内容 URL返回排名用户点击顺序用户点击的URL 使用到了python的jieba插件进行热词的分析 TODO: 需求1：用户搜索关键‘词’分析需求1结果： [('scala', 231 阅读全文

posted @ 2024-01-20 20:00 云云云云云云云云阅读(33) 评论(0) 推荐(0)

2024年1月19日

1/18 学习进度笔记

摘要：阅读全文

posted @ 2024-01-19 23:03 云云云云云云云云阅读(9) 评论(0) 推荐(0)

1/19 学习进度笔记

摘要： 1.Cache和Checkpoint区别Cache是轻量化保存RDD数据,可存储在内存和硬盘,是分散存储，设计上数据是不安全的(保留RDD血缘关系)CheckPoint是重量级保存RDD数据,是集中存储,只能存储在硬盘(HDFS)上，设计上是安全的(不保留RDD血缘关系)2.Cache和CheckP 阅读全文

posted @ 2024-01-19 23:03 云云云云云云云云阅读(24) 评论(0) 推荐(0)

1/16 学习进度笔记

摘要：阅读全文

posted @ 2024-01-19 23:02 云云云云云云云云阅读(8) 评论(0) 推荐(0)

1/17 学习进度笔记

摘要：阅读全文

posted @ 2024-01-19 23:02 云云云云云云云云阅读(17) 评论(0) 推荐(0)

2024年1月15日

1/15 学习进度笔记

摘要：进入学习了RDD的创建以及map算子阅读全文

posted @ 2024-01-15 19:05 云云云云云云云云阅读(23) 评论(0) 推荐(0)

2024年1月14日

1/14 学习进度笔记

摘要： Python On Spark的执行流程分布式代码执行的重要特征？代码在集群上运行，是被分布式运行的。在Spark中，非任务处理部分由Driver执行（非RDD代码）任务处理部分是由Executor执行（RDD代码） Executor的数量可以很多，所以任务的计算是分布式在运行的。 Pysp 阅读全文

posted @ 2024-01-14 17:39 云云云云云云云云阅读(32) 评论(0) 推荐(0)