摘要:
在内存中缓存数据 Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或datafame .cache()来使用内存中的列格式缓存表。 Spark SQL将只扫描所需的列,并自动调整压缩,以最小化内存使用和GC压力。 调用spark.catal 阅读全文
摘要:
在内存中缓存数据 Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或datafame .cache()来使用内存中的列格式缓存表。 Spark SQL将只扫描所需的列,并自动调整压缩,以最小化内存使用和GC压力。 调用spark.catal 阅读全文
摘要:
优化资源分配 在Spark的集群管理器(Yarn、Mesos和Spark单机)之间,这里的建议和配置略有不同,但是我们只关注Yarn,Cloudera向所有用户推荐Yarn。 Spark(和YARN) 考虑的两个主要资源是CPU和内存。当然,磁盘和网络I/O也对Spark性能有影响,但是Spark和 阅读全文
摘要:
Apache Spark Job 调优以提高性能(一) 假设你已经清楚了Spark 的 RDD 转换,Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时,Job、stage和task 也很清楚了。 如果不清楚可以看我的视频(。。。。) 在本文中,您将了解Spark程序 阅读全文
摘要:
1. RDD如何持久化数据? 有两种方法可以持久存储数据,比如持久存储 persist()和cache() 临时存储在内存中。 有不同的存储级别选项,比如MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等等。 persist() 和 cache() 使用不同的选项取决于任务 阅读全文
摘要:
1. Spark是什么? Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序,将批处理、流处理和交互分析结合起来。 2. RDD是什么? Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。 3. 阅读全文
摘要:
问题 对于给定的文件,应该使用多少个分区? 例如,假设我有一个10GB 文件,3个执行器,每个执行器有 2 个内核,3G内存。 我应该重新分配吗? 我应该使用多少个分区? 做出选择的更好方法是什么? 会默认重新分区么? 分析 Spark可以为一个RDD的每个分区运行一个并发任务,直到并发任务数等于集 阅读全文
摘要:
GUI里调试Spark JOB 必须先安装好 Spark:https://www.cnblogs.com/yjyyjy/p/12860642.html 视频: https://study.163.com/course/courseLearn.htm?courseId=1210073161&share 阅读全文
摘要:
Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下: 视频链接地址: https://study.163.com/course/courseLearn.htm?courseId=1210073161#/le 阅读全文
摘要:
Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S 阅读全文
摘要:
索引 SQL性能中最强大和最容易被误解的地方。在这篇文章中,我们将探讨: 索引的用途 如何创建和选择索引类型 讨论如何决定索引什么以及如何查看它是否有用。 Why? 数据库表可能会变大。惊人地,异常大。扫描数百万、数十亿或数万亿行数据,只返回两行或三行数据,这是一种巨大的浪费。索引可以帮助你避免这些 阅读全文
|