会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zhangmingmkzj
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2024年2月3日
2.3学习进度
摘要: 常用api用法 agg:groupdata对象的api,作用是在里面可以写多个聚合 alias:column对象的api,可以针对一个列进行改名 withcolumnrenamed:dataframe的api,可以对df中的列进行改名,一次改一个列 ,改多个列,可以链式调用7.sparksql数据清
阅读全文
posted @ 2024-02-03 11:44 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2.2学习进度
摘要: spark并行度推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数5.spark的任务调度sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作DAG调度器:讲
阅读全文
posted @ 2024-02-03 11:43 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
2.1学习进度
摘要: 有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action = 一个DAG = 一个JOB一个application中,每一个
阅读全文
posted @ 2024-02-03 11:42 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑