1.30学习进度
摘要:.catalyst优化点 谓词下推、断言下推:讲逻辑判断提前到前面,以减少shuffle阶段的数据量 列值裁剪:将加载的列进行裁剪,尽量减少被处理数据的密度3.sparksql的执行流程 提交sparksql代码 catalyst优化 drive执行环境入口搭建 DAG调度器规划逻辑任务 task调
阅读全文
1.29学习进度
摘要:datafram的组成在结构层面: structtype对象描述整个datafrme的表结构 structfield对象描述一个列的信息在数据层面: row对象记录一行数据 column对象记录一列数据并包含列的信息2.dataframe的代码构建–基于rdd方式 dataframe对象可以从rdd
阅读全文
1.28学习进度
摘要:1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit
阅读全文
1.27学习进度
摘要:1.jieba库可以对中文进行分词2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定
阅读全文
1.26学习进度
摘要:rdd的创建方法 通过并行化集合的方式(本地集合转分布式集合) 读取数据的方式创建8.rdd分区数查看方法 通过个体怒骂partitions api查看,返回值int9.transformation和action的区别 转换算子的返回值100%是rdd,而action算子的返回值100%不是rdd
阅读全文
1.25学习进度
摘要:1.rdd的数据是过程数据rdd之间进行相互迭代计算,当执行开启后,新rdd的产生,代表老rdd的消失rdd的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了这样可以最大化的利用资源2.rdd的缓存sparkt提供了缓存api,可以让我们通过调用api,将指定的rdd数据保留在内存或者硬
阅读全文
1.24学习进度
摘要:1.RDD的创建通过并行化集合创建(本地对象 转 分布式RDD)读取外部数据源(读取文件): textfile api(可以读取本地数据)2.算子是什么算子:分布式集合对象上的api方法/函数:本地对象的api3.算子的分类 Transformation:转换算子(返回值是rdd)特性:这类算子时l
阅读全文
1.23学习进度
摘要:1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合2.RDD五大特性 A list of partitions:RDD是有分区的 A function for computing each split:计算方法会做用到每一个分片(分区
阅读全文
1.22学习进度
摘要:1.分布式代码执行的重要特征代码在集群上运行,是分布式运行的在spark中,非任务处理部分由driver执行(非rdd代码)任务处理部分由executor执行(rdd代码)executor的数量可以很多,所以人物的计算是分布式在运行的2.pyspark的架构体系python on spark dri
阅读全文
1.21学习进度
摘要:1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用将程序代码上传到服务器上通过spark客户端工具进行提交注意:1.在代码中不要设置master,如果设置一代码为准spark-submit
阅读全文
1.20学习进度
摘要:1.standalone HA的运行原理: 为解决单点故障问题,spark由两种方案:基于文件系统的单点恢复(只能用于开发或测试环境)、基于zookeeper的standby master(可以用于生产环境);基于zookeeper做状态的维护,开启多个master进程,一个作为活跃,其他的作为备份
阅读全文
1.19学习进度
摘要:1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选)2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态。
阅读全文
1.18学习进度
摘要:1.local模式基本原理 本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务task local模式可以限制模拟spark集群环境的线程数量,即local[N]或local[*] 其中N代表可以使用N个线程,如果不指定N,默认是1个线程 如果是local[*], 则代表R
阅读全文
1.17学习进度
摘要:资源管理层面:1.集群资源管理者(master):ResourceManager2.单机资源管理者(worker):NodeManager任务计算层面:单任务管理者(master):ApplicationMaster单任务执行者(worker):Task(容器内计算款家的角色)spark运行角色资源
阅读全文
1.16学习进度
摘要:sparkde四大特点 速度快:比hadoop的mapreduce快100倍;spark处理数据时,可以将中间处理结果存储到内存中;spark提供了非常丰富分算子,可以做到复杂任务在一个spark程序中完成 易于使用 通用性强:spark提供了spark sql、spark streaming、ml
阅读全文
1.15学习进度
摘要:18080端口为history server端口的WebUI,展示信息为已完成和未完成的应用信息,当4040端口关闭后,可以通过18080端口查看相关信息。 展示信息包含4040端口的所有信息演示如下: 首先创建history sever的读取路径文件夹: mkdir /usr/local/spar
阅读全文
1.14学习进度
摘要:1.executor 和 container01.Spark中的 executor 进程是跑在 container 中,所以container的最大内存会直接影响到executor的最大可用内存02. yarn.nodemanager.pmem-check-enabled 该参数默认是true,也就
阅读全文
1.13学习进度
摘要:初始化DAGScheduler 和 TaskScheduler调度器,SparkDeploySchedulerBackend,以及在其内部启动DriverEndpoint 和 ClientEndpoint。 其中: ClientEndpoint:用于向Master注册应用程序 DriverEndpo
阅读全文
1.12学习进度
摘要:Shape 类有一个具体方法 moveTo 和一个抽象方法 zoom,其中 moveTo 将图形从 当前位置移动到新的位置, 各种具体图形的 moveTo 可能会有不一样的地方。zoom 方法实 现对图形的放缩,接受一个浮点型的放缩倍数参数,不同具体图形放缩实现不一样。继承 Shape 类的具体图形
阅读全文
1.11学习进度
摘要:(6)在/tmp/test2 目录下新建 word.txt 文件并输入一些字符串保存退出; (7)查看 word.txt 文件内容; (8)将 word.txt 文件所有者改为 root 帐号,并查看属性; (9)找出/tmp 目录下文件名为 test2 的文件; (10)在/目录下新建文件夹 te
阅读全文
1.10学习进度
摘要:.使用 Linux 系统的常用命令 启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考 本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin; (2)查看目录/usr/local 下所有的文件;
阅读全文