会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zhangmingmkzj
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
上一页
1
2
3
4
5
6
7
···
25
下一页
2024年1月23日
1.23学习进度
摘要: 1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合2.RDD五大特性 A list of partitions:RDD是有分区的 A function for computing each split:计算方法会做用到每一个分片(分区
阅读全文
posted @ 2024-01-23 17:58 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月22日
1.22学习进度
摘要: 1.分布式代码执行的重要特征代码在集群上运行,是分布式运行的在spark中,非任务处理部分由driver执行(非rdd代码)任务处理部分由executor执行(rdd代码)executor的数量可以很多,所以人物的计算是分布式在运行的2.pyspark的架构体系python on spark dri
阅读全文
posted @ 2024-01-22 11:25 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月21日
1.21学习进度
摘要: 1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit
阅读全文
posted @ 2024-01-21 17:32 zhangmingmingkjz
阅读(3)
评论(0)
推荐(0)
编辑
2024年1月20日
1.20学习进度
摘要: 1.standalone HA的运行原理: 为解决单点故障问题,spark由两种方案:基于文件系统的单点恢复(只能用于开发或测试环境)、基于zookeeper的standby master(可以用于生产环境);基于zookeeper做状态的维护,开启多个master进程,一个作为活跃,其他的作为备份
阅读全文
posted @ 2024-01-20 14:57 zhangmingmingkjz
阅读(1)
评论(0)
推荐(0)
编辑
2024年1月19日
1.19学习进度
摘要: 1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选)2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态。
阅读全文
posted @ 2024-01-19 12:04 zhangmingmingkjz
阅读(2)
评论(0)
推荐(0)
编辑
2024年1月18日
1.18学习进度
摘要: 1.local模式基本原理 本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务task local模式可以限制模拟spark集群环境的线程数量,即local[N]或local[*] 其中N代表可以使用N个线程,如果不指定N,默认是1个线程 如果是local[*], 则代表R
阅读全文
posted @ 2024-01-18 13:55 zhangmingmingkjz
阅读(1)
评论(0)
推荐(0)
编辑
1.17学习进度
摘要: 资源管理层面:1.集群资源管理者(master):ResourceManager2.单机资源管理者(worker):NodeManager任务计算层面:单任务管理者(master):ApplicationMaster单任务执行者(worker):Task(容器内计算款家的角色)spark运行角色资源
阅读全文
posted @ 2024-01-18 13:54 zhangmingmingkjz
阅读(1)
评论(0)
推荐(0)
编辑
2024年1月16日
1.16学习进度
摘要: sparkde四大特点 速度快:比hadoop的mapreduce快100倍;spark处理数据时,可以将中间处理结果存储到内存中;spark提供了非常丰富分算子,可以做到复杂任务在一个spark程序中完成 易于使用 通用性强:spark提供了spark sql、spark streaming、ml
阅读全文
posted @ 2024-01-16 19:21 zhangmingmingkjz
阅读(1)
评论(0)
推荐(0)
编辑
2024年1月15日
1.15学习进度
摘要: 18080端口为history server端口的WebUI,展示信息为已完成和未完成的应用信息,当4040端口关闭后,可以通过18080端口查看相关信息。 展示信息包含4040端口的所有信息演示如下: 首先创建history sever的读取路径文件夹: mkdir /usr/local/spar
阅读全文
posted @ 2024-01-15 18:20 zhangmingmingkjz
阅读(4)
评论(0)
推荐(0)
编辑
2024年1月14日
1.14学习进度
摘要: 1.executor 和 container01.Spark中的 executor 进程是跑在 container 中,所以container的最大内存会直接影响到executor的最大可用内存02. yarn.nodemanager.pmem-check-enabled 该参数默认是true,也就
阅读全文
posted @ 2024-01-14 20:04 zhangmingmingkjz
阅读(5)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
···
25
下一页