随笔分类 -  Spark

摘要:1、shuffle 的原理 在 spark 中,发生 shuffle 操作主要是以下几个算子:groupByKey、reduceByKey、 countByKey、join,等等。 (1)Shuffle 原理介绍: groupByKey,要把分布在集群各个节点上的数据中的同一个 key,对应的 va 阅读全文
posted @ 2020-10-12 16:41 guoyu1 阅读(404) 评论(0) 推荐(0) 编辑
摘要:概要 DAG,有向无环图,Directed Acyclic Graph的缩写,常用于建模。Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage,RDD的依赖关系使用Dependency维护,参考Spark RDD之Dependency,DAG在Spa 阅读全文
posted @ 2020-09-29 16:37 guoyu1 阅读(501) 评论(0) 推荐(0) 编辑
摘要:http://arganzheng.life/spark-executor-memory-management.html https://blog.csdn.net/Lzx116/article/details/125929100 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个 阅读全文
posted @ 2020-09-11 15:20 guoyu1 阅读(662) 评论(0) 推荐(0) 编辑
摘要:1、windows环境搭建 (1)将pyspark、py4j,放到python安装目录下。 (2)将其他的相关jar包,放到spark jars目录下。 (3)pycharm配置好python解析器、公司的proxy代理,pip.int放到指定目录下。 2、linux环境搭建 (1)将pyspark 阅读全文
posted @ 2020-07-05 15:20 guoyu1 阅读(2144) 评论(1) 推荐(0) 编辑
摘要:一、读文件 1、textfile读取不同场景文件 https://blog.csdn.net/legotime/article/details/51871724?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachi 阅读全文
posted @ 2020-05-23 22:34 guoyu1 阅读(1591) 评论(0) 推荐(0) 编辑
摘要:1、spark中一个job中的某个task卡顿不动了: https://blog.csdn.net/fct2001140269/article/details/103732120 解决思路: (1)是否有数据倾斜的可能。 (2)查看cpu,内存是否异常,cpu是否被打满,若被打满,查看到底是哪个进程 阅读全文
posted @ 2020-03-30 10:25 guoyu1 阅读(392) 评论(0) 推荐(0) 编辑
摘要:转载博客:http://hbasefly.com/2017/03/19/sparksql-basic-join/ 目录: 一、Join背景介绍 二、Join常见分类以及基本实现机制 三、sparksql如何选择join类型 一、Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技 阅读全文
posted @ 2020-03-07 16:41 guoyu1 阅读(517) 评论(0) 推荐(0) 编辑
摘要:一、Spark中的基本概念 1、spark中的概念: (1)Application:指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成 https://blog.csdn.net/liuxi 阅读全文
posted @ 2020-02-26 21:50 guoyu1 阅读(518) 评论(0) 推荐(0) 编辑
摘要:1、spark中默认的分区器: Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。 只有Key-Value类型的RDD才有分区器的 阅读全文
posted @ 2020-02-14 21:25 guoyu1 阅读(367) 评论(0) 推荐(0) 编辑
摘要:1、双重key聚合解决数据倾斜:个别key数据量过大,导致数据倾斜。在key前加随机前缀,先进行一次预聚合,然后再将随机前缀去掉,再进行一次聚合。 // 注册自定义函数 spark.udf().register("concat_String_string", new ConcatStringStri 阅读全文
posted @ 2020-02-13 21:04 guoyu1 阅读(447) 评论(0) 推荐(0) 编辑
摘要:1、前置知识: (1)sc.defaultMinPartitions sc.defaultMinPartitions=min(sc.defaultParallelism,2) 也就是sc.defaultMinPartitions只有两个值1和2,当sc.defaultParallelism>1时值为 阅读全文
posted @ 2020-02-12 19:15 guoyu1 阅读(2183) 评论(0) 推荐(0) 编辑
摘要:1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 阅读全文
posted @ 2020-02-12 15:13 guoyu1 阅读(2715) 评论(0) 推荐(0) 编辑
摘要:一、给足资源: 1、搭建集群的时候:给足SPARK_WORKER_CORES、SPARK_WORKER_MEMORY。 2、提交任务的时候:生产环境中提交任务使用的是shell脚本,要根据实际的情况设置好里面的参数。 /usr/local/spark/bin/spark-submit \ --cla 阅读全文
posted @ 2020-01-08 15:05 guoyu1 阅读(788) 评论(0) 推荐(0) 编辑
摘要:一、spark sql简介: 1、SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容 Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by swapping out the physical execution engin 阅读全文
posted @ 2019-12-25 16:43 guoyu1 阅读(580) 评论(0) 推荐(0) 编辑
摘要:一、DataFrame 1、创建 https://www.cnblogs.com/frankdeng/p/9301743.html DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: ( 阅读全文
posted @ 2019-12-24 16:47 guoyu1 阅读(416) 评论(0) 推荐(0) 编辑
摘要:1、RDD概念: RDD 叫做 弹性分布式数据集,是spark中最基本的数据抽象。代表着一个可分区、元素可并行计算、不可变的数据集合。 RDD特点:自动容错、位置感知性调度、可伸缩性,允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 2、RDD原 阅读全文
posted @ 2019-12-24 14:05 guoyu1 阅读(1064) 评论(0) 推荐(0) 编辑
摘要:一、reduceByKey和groupByKey的区别 1、reduceByKey:按照 key进行聚合,在 shuffle 之前有 combine(预聚合)操作,返回结果是 RDD[k,v]。 2、groupByKey:按照 key进行分组,直接进行 shuffle。开发指导:reduceByKe 阅读全文
posted @ 2019-12-24 11:14 guoyu1 阅读(907) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示