2024 年 1月随笔档案 - zhangmingmingkjz

1.30学习进度

摘要：.catalyst优化点谓词下推、断言下推：讲逻辑判断提前到前面，以减少shuffle阶段的数据量列值裁剪：将加载的列进行裁剪，尽量减少被处理数据的密度3.sparksql的执行流程提交sparksql代码 catalyst优化 drive执行环境入口搭建 DAG调度器规划逻辑任务 task调阅读全文

posted @ 2024-01-30 17:36 zhangmingmingkjz 阅读(3) 评论(0) 推荐(0) 编辑

1.29学习进度

摘要：datafram的组成在结构层面： structtype对象描述整个datafrme的表结构 structfield对象描述一个列的信息在数据层面： row对象记录一行数据 column对象记录一列数据并包含列的信息2.dataframe的代码构建–基于rdd方式 dataframe对象可以从rdd 阅读全文

posted @ 2024-01-29 19:32 zhangmingmingkjz 阅读(3) 评论(0) 推荐(0) 编辑

1.28学习进度

摘要：1.python语言开发spark程序的步骤主要是获取spark context对象，就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意：1.在代码中不要设置master，如果设置一代码为准spark-submit 阅读全文

posted @ 2024-01-28 18:23 zhangmingmingkjz 阅读(3) 评论(0) 推荐(0) 编辑

1.27学习进度

摘要：1.jieba库可以对中文进行分词2.由于yarn是集群运行，executor可以在所有服务器上执行，所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量，通过–executor-memory指定executor内存，通过–executor-cores指定阅读全文

posted @ 2024-01-27 18:01 zhangmingmingkjz 阅读(4) 评论(0) 推荐(0) 编辑

1.26学习进度

摘要：rdd的创建方法通过并行化集合的方式（本地集合转分布式集合）读取数据的方式创建8.rdd分区数查看方法通过个体怒骂partitions api查看，返回值int9.transformation和action的区别转换算子的返回值100%是rdd，而action算子的返回值100%不是rdd 阅读全文

posted @ 2024-01-26 19:50 zhangmingmingkjz 阅读(4) 评论(0) 推荐(0) 编辑

1.25学习进度

摘要：1.rdd的数据是过程数据rdd之间进行相互迭代计算，当执行开启后，新rdd的产生，代表老rdd的消失rdd的数据是过程数据，只在处理的过程中存在，一旦处理完成，就不见了这样可以最大化的利用资源2.rdd的缓存sparkt提供了缓存api，可以让我们通过调用api，将指定的rdd数据保留在内存或者硬阅读全文

posted @ 2024-01-25 13:22 zhangmingmingkjz 阅读(5) 评论(0) 推荐(0) 编辑

1.24学习进度

摘要：1.RDD的创建通过并行化集合创建（本地对象转分布式RDD）读取外部数据源（读取文件）: textfile api（可以读取本地数据）2.算子是什么算子：分布式集合对象上的api方法/函数：本地对象的api3.算子的分类 Transformation：转换算子（返回值是rdd）特性：这类算子时l 阅读全文

posted @ 2024-01-24 17:56 zhangmingmingkjz 阅读(7) 评论(0) 推荐(0) 编辑

1.23学习进度

摘要：1.RDD定义：弹性分布式数据集，是spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合2.RDD五大特性 A list of partitions:RDD是有分区的 A function for computing each split：计算方法会做用到每一个分片（分区阅读全文

posted @ 2024-01-23 17:58 zhangmingmingkjz 阅读(4) 评论(0) 推荐(0) 编辑

1.22学习进度

摘要：1.分布式代码执行的重要特征代码在集群上运行，是分布式运行的在spark中，非任务处理部分由driver执行（非rdd代码）任务处理部分由executor执行（rdd代码）executor的数量可以很多，所以人物的计算是分布式在运行的2.pyspark的架构体系python on spark dri 阅读全文

posted @ 2024-01-22 11:25 zhangmingmingkjz 阅读(2) 评论(0) 推荐(0) 编辑

1.21学习进度

posted @ 2024-01-21 17:32 zhangmingmingkjz 阅读(4) 评论(0) 推荐(0) 编辑

1.20学习进度

摘要：1.standalone HA的运行原理：为解决单点故障问题，spark由两种方案：基于文件系统的单点恢复（只能用于开发或测试环境）、基于zookeeper的standby master（可以用于生产环境）；基于zookeeper做状态的维护，开启多个master进程，一个作为活跃，其他的作为备份阅读全文

posted @ 2024-01-20 14:57 zhangmingmingkjz 阅读(2) 评论(0) 推荐(0) 编辑

1.19学习进度

摘要：1.standalone是一个完整的分布式集群环境；standalone集群在进程上主要有三类进程：主节点master及昵称、从节点的worker进程、历史服务器哦historyserver（可选）2.4040：是一个运行的application在运行的过程中临时绑定的端口，用以查看当前任务的状态。阅读全文

posted @ 2024-01-19 12:04 zhangmingmingkjz 阅读(2) 评论(0) 推荐(0) 编辑

1.18学习进度

摘要：1.local模式基本原理本质：启动一个JVM Process进程（一个进程里面有多个线程），执行任务task local模式可以限制模拟spark集群环境的线程数量，即local[N]或local[*] 其中N代表可以使用N个线程，如果不指定N，默认是1个线程如果是local[*], 则代表R 阅读全文

posted @ 2024-01-18 13:55 zhangmingmingkjz 阅读(1) 评论(0) 推荐(0) 编辑

1.17学习进度

摘要：资源管理层面：1.集群资源管理者（master）：ResourceManager2.单机资源管理者（worker）：NodeManager任务计算层面：单任务管理者（master）：ApplicationMaster单任务执行者（worker）：Task（容器内计算款家的角色）spark运行角色资源阅读全文

posted @ 2024-01-18 13:54 zhangmingmingkjz 阅读(1) 评论(0) 推荐(0) 编辑

1.16学习进度

摘要：sparkde四大特点速度快：比hadoop的mapreduce快100倍；spark处理数据时，可以将中间处理结果存储到内存中；spark提供了非常丰富分算子，可以做到复杂任务在一个spark程序中完成易于使用通用性强：spark提供了spark sql、spark streaming、ml 阅读全文

posted @ 2024-01-16 19:21 zhangmingmingkjz 阅读(1) 评论(0) 推荐(0) 编辑

1.15学习进度

摘要：18080端口为history server端口的WebUI，展示信息为已完成和未完成的应用信息，当4040端口关闭后，可以通过18080端口查看相关信息。展示信息包含4040端口的所有信息演示如下：首先创建history sever的读取路径文件夹： mkdir /usr/local/spar 阅读全文

posted @ 2024-01-15 18:20 zhangmingmingkjz 阅读(4) 评论(0) 推荐(0) 编辑

1.14学习进度

摘要：1.executor 和 container01.Spark中的 executor 进程是跑在 container 中，所以container的最大内存会直接影响到executor的最大可用内存02. yarn.nodemanager.pmem-check-enabled 该参数默认是true，也就阅读全文

posted @ 2024-01-14 20:04 zhangmingmingkjz 阅读(6) 评论(0) 推荐(0) 编辑

1.13学习进度

摘要：初始化DAGScheduler 和 TaskScheduler调度器，SparkDeploySchedulerBackend，以及在其内部启动DriverEndpoint 和 ClientEndpoint。其中： ClientEndpoint：用于向Master注册应用程序 DriverEndpo 阅读全文

posted @ 2024-01-13 23:00 zhangmingmingkjz 阅读(2) 评论(0) 推荐(0) 编辑

1.12学习进度

摘要：Shape 类有一个具体方法 moveTo 和一个抽象方法 zoom，其中 moveTo 将图形从当前位置移动到新的位置，各种具体图形的 moveTo 可能会有不一样的地方。zoom 方法实现对图形的放缩，接受一个浮点型的放缩倍数参数，不同具体图形放缩实现不一样。继承 Shape 类的具体图形阅读全文

posted @ 2024-01-12 21:22 zhangmingmingkjz 阅读(2) 评论(0) 推荐(0) 编辑

1.11学习进度

摘要：（6）在/tmp/test2 目录下新建 word.txt 文件并输入一些字符串保存退出；（7）查看 word.txt 文件内容；（8）将 word.txt 文件所有者改为 root 帐号，并查看属性；（9）找出/tmp 目录下文件名为 test2 的文件；（10）在/目录下新建文件夹 te 阅读全文

posted @ 2024-01-11 22:29 zhangmingmingkjz 阅读(13) 评论(0) 推荐(0) 编辑

1.10学习进度

摘要：．使用 Linux 系统的常用命令启动 Linux 虚拟机，进入 Linux 系统，通过查阅相关 Linux 书籍和网络资料，或者参考本教程官网的“实验指南”的“Linux 系统常用命令”，完成如下操作：（1）切换到目录 /usr/bin；（2）查看目录/usr/local 下所有的文件；阅读全文

posted @ 2024-01-11 10:11 zhangmingmingkjz 阅读(12) 评论(0) 推荐(0) 编辑

搜索

常用链接

我的标签

随笔档案

阅读排行榜

推荐排行榜

01 2024 档案