会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zhangmingmkzj
昵称:
zhangmingmingkjz
园龄:
2年8个月
粉丝:
2
关注:
4
+加关注
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
每日日记
(109)
2024寒假
(26)
课堂Java
(10)
假期学习Java
(9)
算法总结
(5)
随笔档案
2024年5月(2)
2024年4月(5)
2024年2月(6)
2024年1月(21)
2023年12月(30)
2023年11月(31)
2023年10月(24)
2023年9月(21)
2023年8月(5)
2023年7月(5)
2023年6月(3)
2023年5月(24)
2023年4月(19)
2023年3月(24)
2023年2月(9)
2022年10月(4)
2022年9月(5)
2022年8月(2)
2022年7月(6)
阅读排行榜
1. 程序员修炼之道——从小工到专家读后感(208)
2. Java学习第二周(197)
3. springboot3+vue3大事件的展示(98)
4. 大道至简读后感(79)
5. 开学考试总结(68)
推荐排行榜
1. Java学习第二周(1)
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
上一页
1
2
3
4
5
6
···
25
下一页
2024年2月3日
2.2学习进度
摘要: spark并行度推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数5.spark的任务调度sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作DAG调度器:讲
阅读全文
posted @ 2024-02-03 11:43 zhangmingmingkjz
阅读(4)
评论(0)
推荐(0)
编辑
2.1学习进度
摘要: 有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action = 一个DAG = 一个JOB一个application中,每一个
阅读全文
posted @ 2024-02-03 11:42 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年2月1日
1.31学习进度
摘要: 第一章1.sparkshufflemap和reduce在shuffle过程中,提供数据的称之为ma段,几首数据的称之为reduce端在spark的两个阶段中,总是前一个阶段产生一批map提供数据,下一阶段喊声一批reduce接收数据2.spark提供2中shuffle管理器 hashshufflem
阅读全文
posted @ 2024-02-01 18:39 zhangmingmingkjz
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月30日
1.30学习进度
摘要: .catalyst优化点 谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量 列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度3.sparksql的执行流程 提交sparksql代码 catalyst优化 drive执行环境入口搭建 DAG调度器规划逻辑任务 task调
阅读全文
posted @ 2024-01-30 17:36 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月29日
1.29学习进度
摘要: datafram的组成在结构层面: structtype对象描述整个datafrme的表结构 structfield对象描述一个列的信息在数据层面: row对象记录一行数据 column对象记录一列数据并包含列的信息2.dataframe的代码构建–基于rdd方式 dataframe对象可以从rdd
阅读全文
posted @ 2024-01-29 19:32 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月28日
1.28学习进度
摘要: 1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit
阅读全文
posted @ 2024-01-28 18:23 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月27日
1.27学习进度
摘要: 1.jieba库可以对中文进行分词2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定
阅读全文
posted @ 2024-01-27 18:01 zhangmingmingkjz
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月26日
1.26学习进度
摘要: rdd的创建方法 通过并行化集合的方式(本地集合转分布式集合) 读取数据的方式创建8.rdd分区数查看方法 通过个体怒骂partitions api查看,返回值int9.transformation和action的区别 转换算子的返回值100%是rdd,而action算子的返回值100%不是rdd
阅读全文
posted @ 2024-01-26 19:50 zhangmingmingkjz
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月25日
1.25学习进度
摘要: 1.rdd的数据是过程数据rdd之间进行相互迭代计算,当执行开启后,新rdd的产生,代表老rdd的消失rdd的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了这样可以最大化的利用资源2.rdd的缓存sparkt提供了缓存api,可以让我们通过调用api,将指定的rdd数据保留在内存或者硬
阅读全文
posted @ 2024-01-25 13:22 zhangmingmingkjz
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月24日
1.24学习进度
摘要: 1.RDD的创建通过并行化集合创建(本地对象 转 分布式RDD)读取外部数据源(读取文件): textfile api(可以读取本地数据)2.算子是什么算子:分布式集合对象上的api方法/函数:本地对象的api3.算子的分类 Transformation:转换算子(返回值是rdd)特性:这类算子时l
阅读全文
posted @ 2024-01-24 17:56 zhangmingmingkjz
阅读(7)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
···
25
下一页
点击右上角即可分享