摘要: ###什么是Impala 用来处理存储在Hadoop集群中大量数据的大规模并行处理的sql查询引擎,它是由C++和Java编写的开源软件,它提供了访问Hadoop中分布式文件系统中的数据的最快的方法。 ###Impalade优点 1.使用Impala,与其他SQL引擎(如Hive)相比,用户可以使用 阅读全文
posted @ 2022-03-14 09:48 lmandcc 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 读取文件时报错。这是python在读取文件时非常容易遇到的一个编码问题。解决办法是添加 encoding=‘ISO-8859-1’。 由于ftp下载默认的是ascii模式,下载的文件编码是iso8859-1。 阅读全文
posted @ 2022-03-02 11:08 lmandcc 阅读(1545) 评论(0) 推荐(0) 编辑
摘要: num-executors 参数说明:参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上, 启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给 阅读全文
posted @ 2021-11-17 10:27 lmandcc 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD; 以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作( 阅读全文
posted @ 2021-11-17 09:28 lmandcc 阅读(202) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming案例 案例1-WordCount yum install -y nc https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streami 阅读全文
posted @ 2021-11-15 21:32 lmandcc 阅读(51) 评论(0) 推荐(0) 编辑
摘要: Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度 优点:每个task运行的时候单独申请资源,资源被充分利用 缺点:task启动速度慢 粗粒度资源调度 Spark是属 阅读全文
posted @ 2021-11-12 21:09 lmandcc 阅读(364) 评论(0) 推荐(1) 编辑
摘要: DAG(有向无环图) Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束 一个Spark程序中有几个Action操作就有几个DAG! Stage(阶段) 为什么需要划分Stage? 前面提到Spark可以根据代码执行流程形成一 阅读全文
posted @ 2021-11-12 20:34 lmandcc 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 宽依赖 1.有shuffle 2.父RDD的一个分区会被子RDD的多个分区所依赖(父一对多) 窄依赖 1.没有shuffle 2.父RDD的一个分区只会被子RDD的1个分区所依赖(一对一) 划分宽依赖和窄依赖的原因 窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一 阅读全文
posted @ 2021-11-12 20:18 lmandcc 阅读(312) 评论(0) 推荐(0) 编辑
摘要: Spark中术语解释 Application:基于Spark的应用程序,包含了driver程序和 集群上的executor DriverProgram:运行main函数并且新建SparkContext的程序 ClusterManager:在集群上获取资源的外部服务(例如 standalone,Mes 阅读全文
posted @ 2021-11-12 19:47 lmandcc 阅读(174) 评论(0) 推荐(0) 编辑
摘要: RDD的缓存/持久化 缓存解决的问题 缓存解决什么问题?-解决的是热点数据频繁访问的效率问题 在Spark开发中某些RDD的计算或转换可能会比较耗费时间, 如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存, 这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。 阅读全文
posted @ 2021-11-11 22:11 lmandcc 阅读(152) 评论(0) 推荐(0) 编辑