会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zhangmingmkzj
昵称:
zhangmingmingkjz
园龄:
2年8个月
粉丝:
2
关注:
4
+加关注
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
每日日记
(109)
2024寒假
(26)
课堂Java
(10)
假期学习Java
(9)
算法总结
(5)
随笔档案
2024年5月(2)
2024年4月(5)
2024年2月(6)
2024年1月(21)
2023年12月(30)
2023年11月(31)
2023年10月(24)
2023年9月(21)
2023年8月(5)
2023年7月(5)
2023年6月(3)
2023年5月(24)
2023年4月(19)
2023年3月(24)
2023年2月(9)
2022年10月(4)
2022年9月(5)
2022年8月(2)
2022年7月(6)
阅读排行榜
1. 程序员修炼之道——从小工到专家读后感(208)
2. Java学习第二周(197)
3. springboot3+vue3大事件的展示(98)
4. 大道至简读后感(79)
5. 开学考试总结(68)
推荐排行榜
1. Java学习第二周(1)
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
上一页
1
2
3
4
5
6
7
···
25
下一页
2024年1月23日
1.23学习进度
摘要: 1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合2.RDD五大特性 A list of partitions:RDD是有分区的 A function for computing each split:计算方法会做用到每一个分片(分区
阅读全文
posted @ 2024-01-23 17:58 zhangmingmingkjz
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月22日
1.22学习进度
摘要: 1.分布式代码执行的重要特征代码在集群上运行,是分布式运行的在spark中,非任务处理部分由driver执行(非rdd代码)任务处理部分由executor执行(rdd代码)executor的数量可以很多,所以人物的计算是分布式在运行的2.pyspark的架构体系python on spark dri
阅读全文
posted @ 2024-01-22 11:25 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月21日
1.21学习进度
摘要: 1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit
阅读全文
posted @ 2024-01-21 17:32 zhangmingmingkjz
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月20日
1.20学习进度
摘要: 1.standalone HA的运行原理: 为解决单点故障问题,spark由两种方案:基于文件系统的单点恢复(只能用于开发或测试环境)、基于zookeeper的standby master(可以用于生产环境);基于zookeeper做状态的维护,开启多个master进程,一个作为活跃,其他的作为备份
阅读全文
posted @ 2024-01-20 14:57 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月19日
1.19学习进度
摘要: 1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选)2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态。
阅读全文
posted @ 2024-01-19 12:04 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月18日
1.18学习进度
摘要: 1.local模式基本原理 本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务task local模式可以限制模拟spark集群环境的线程数量,即local[N]或local[*] 其中N代表可以使用N个线程,如果不指定N,默认是1个线程 如果是local[*], 则代表R
阅读全文
posted @ 2024-01-18 13:55 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
1.17学习进度
摘要: 资源管理层面:1.集群资源管理者(master):ResourceManager2.单机资源管理者(worker):NodeManager任务计算层面:单任务管理者(master):ApplicationMaster单任务执行者(worker):Task(容器内计算款家的角色)spark运行角色资源
阅读全文
posted @ 2024-01-18 13:54 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月16日
1.16学习进度
摘要: sparkde四大特点 速度快:比hadoop的mapreduce快100倍;spark处理数据时,可以将中间处理结果存储到内存中;spark提供了非常丰富分算子,可以做到复杂任务在一个spark程序中完成 易于使用 通用性强:spark提供了spark sql、spark streaming、ml
阅读全文
posted @ 2024-01-16 19:21 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月15日
1.15学习进度
摘要: 18080端口为history server端口的WebUI,展示信息为已完成和未完成的应用信息,当4040端口关闭后,可以通过18080端口查看相关信息。 展示信息包含4040端口的所有信息演示如下: 首先创建history sever的读取路径文件夹: mkdir /usr/local/spar
阅读全文
posted @ 2024-01-15 18:20 zhangmingmingkjz
阅读(5)
评论(0)
推荐(0)
编辑
2024年1月14日
1.14学习进度
摘要: 1.executor 和 container01.Spark中的 executor 进程是跑在 container 中,所以container的最大内存会直接影响到executor的最大可用内存02. yarn.nodemanager.pmem-check-enabled 该参数默认是true,也就
阅读全文
posted @ 2024-01-14 20:04 zhangmingmingkjz
阅读(7)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
···
25
下一页
点击右上角即可分享