摘要:
###什么是Impala 用来处理存储在Hadoop集群中大量数据的大规模并行处理的sql查询引擎,它是由C++和Java编写的开源软件,它提供了访问Hadoop中分布式文件系统中的数据的最快的方法。 ###Impalade优点 1.使用Impala,与其他SQL引擎(如Hive)相比,用户可以使用 阅读全文
摘要:
读取文件时报错。这是python在读取文件时非常容易遇到的一个编码问题。解决办法是添加 encoding=‘ISO-8859-1’。 由于ftp下载默认的是ascii模式,下载的文件编码是iso8859-1。 阅读全文
摘要:
num-executors 参数说明:参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上, 启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给 阅读全文
摘要:
原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD; 以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作( 阅读全文
摘要:
SparkStreaming案例 案例1-WordCount yum install -y nc https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streami 阅读全文
摘要:
Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度 优点:每个task运行的时候单独申请资源,资源被充分利用 缺点:task启动速度慢 粗粒度资源调度 Spark是属 阅读全文
摘要:
DAG(有向无环图) Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束 一个Spark程序中有几个Action操作就有几个DAG! Stage(阶段) 为什么需要划分Stage? 前面提到Spark可以根据代码执行流程形成一 阅读全文
摘要:
宽依赖 1.有shuffle 2.父RDD的一个分区会被子RDD的多个分区所依赖(父一对多) 窄依赖 1.没有shuffle 2.父RDD的一个分区只会被子RDD的1个分区所依赖(一对一) 划分宽依赖和窄依赖的原因 窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一 阅读全文
摘要:
Spark中术语解释 Application:基于Spark的应用程序,包含了driver程序和 集群上的executor DriverProgram:运行main函数并且新建SparkContext的程序 ClusterManager:在集群上获取资源的外部服务(例如 standalone,Mes 阅读全文
摘要:
RDD的缓存/持久化 缓存解决的问题 缓存解决什么问题?-解决的是热点数据频繁访问的效率问题 在Spark开发中某些RDD的计算或转换可能会比较耗费时间, 如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存, 这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。 阅读全文