会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
yuncannotjava
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
上一页
1
2
3
4
5
6
···
8
下一页
2024年1月23日
1/23 学习进度笔记
摘要: 今日学习了如何使用Spark中的累加器功能,并按要求完成了广播变量加上累加器的统计单词的小案例 累加器的功能? 在分布式执行的代码中,累加器accumulator可以进行全局累加 小案例:在下图文本中实现1.统计特殊符号出现次数2.对单词出现进行统计 原码: # coding:utf8from py
阅读全文
posted @ 2024-01-23 18:35 云云云云云云云云
阅读(5)
评论(0)
推荐(0)
编辑
1/22 学习进度笔记
摘要: 今日因个人原因,全天忙碌无时间学习,故请假一天没有进度笔记
阅读全文
posted @ 2024-01-23 18:30 云云云云云云云云
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月21日
1/21 学习进度笔记
摘要: 今日学习Spark中的广播变量: 使用场景:本地集合对象和分布式集合对象(RDD)进行关联的时候,需要将本地集合对象封装为广播变量 可以节省: 1.网络IO的次数 2.Eexcutor的内存占用 使用方法:
阅读全文
posted @ 2024-01-21 19:50 云云云云云云云云
阅读(1)
评论(0)
推荐(0)
编辑
2024年1月20日
1/20 学习进度笔记
摘要: 完成了搜索引擎日志分析小案例 数据由两万条一下六列相同格式的单个数据组成 分别对应:搜索时间 用户ID 搜索内容 URL返回排名 用户点击顺序 用户点击的URL 使用到了python的jieba插件进行热词的分析 TODO: 需求1: 用户搜索关键‘词’分析需求1结果: [('scala', 231
阅读全文
posted @ 2024-01-20 20:00 云云云云云云云云
阅读(8)
评论(0)
推荐(0)
编辑
2024年1月19日
1/18 学习进度笔记
摘要:
阅读全文
posted @ 2024-01-19 23:03 云云云云云云云云
阅读(1)
评论(0)
推荐(0)
编辑
1/19 学习进度笔记
摘要: 1.Cache和Checkpoint区别Cache是轻量化保存RDD数据,可存储在内存和硬盘,是分散存储,设计上数据是不安全的(保留RDD血缘关系)CheckPoint是重量级保存RDD数据,是集中存储,只能存储在硬盘(HDFS)上,设计上是安全的(不保留RDD血缘关系)2.Cache和CheckP
阅读全文
posted @ 2024-01-19 23:03 云云云云云云云云
阅读(1)
评论(0)
推荐(0)
编辑
1/16 学习进度笔记
摘要:
阅读全文
posted @ 2024-01-19 23:02 云云云云云云云云
阅读(1)
评论(0)
推荐(0)
编辑
1/17 学习进度笔记
摘要:
阅读全文
posted @ 2024-01-19 23:02 云云云云云云云云
阅读(0)
评论(0)
推荐(0)
编辑
2024年1月15日
1/15 学习进度笔记
摘要: 进入学习了RDD的创建以及map算子
阅读全文
posted @ 2024-01-15 19:05 云云云云云云云云
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月14日
1/14 学习进度笔记
摘要: Python On Spark的执行流程 分布式代码执行的重要特征? 代码在集群上运行,是被分布式运行的。 在Spark中,非任务处理部分由Driver执行(非RDD代码) 任务处理部分是由Executor执行(RDD代码) Executor的数量可以很多,所以任务的计算是分布式在运行的。 Pysp
阅读全文
posted @ 2024-01-14 17:39 云云云云云云云云
阅读(4)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
···
8
下一页