yjyyjy

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2020年5月17日

摘要: 在内存中缓存数据 Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或datafame .cache()来使用内存中的列格式缓存表。 Spark SQL将只扫描所需的列,并自动调整压缩,以最小化内存使用和GC压力。 调用spark.catal 阅读全文
posted @ 2020-05-17 22:39 闭关49天 阅读(725) 评论(0) 推荐(0) 编辑

摘要: 优化资源分配 在Spark的集群管理器(Yarn、Mesos和Spark单机)之间,这里的建议和配置略有不同,但是我们只关注Yarn,Cloudera向所有用户推荐Yarn。 Spark(和YARN) 考虑的两个主要资源是CPU和内存。当然,磁盘和网络I/O也对Spark性能有影响,但是Spark和 阅读全文
posted @ 2020-05-17 21:51 闭关49天 阅读(264) 评论(0) 推荐(0) 编辑

摘要: Apache Spark Job 调优以提高性能(一) 假设你已经清楚了Spark 的 RDD 转换,Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时,Job、stage和task 也很清楚了。 如果不清楚可以看我的视频(。。。。) 在本文中,您将了解Spark程序 阅读全文
posted @ 2020-05-17 17:09 闭关49天 阅读(181) 评论(0) 推荐(0) 编辑

2020年5月11日

摘要: 1. RDD如何持久化数据? 有两种方法可以持久存储数据,比如持久存储 persist()和cache() 临时存储在内存中。 有不同的存储级别选项,比如MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等等。 persist() 和 cache() 使用不同的选项取决于任务 阅读全文
posted @ 2020-05-11 15:51 闭关49天 阅读(268) 评论(0) 推荐(0) 编辑

摘要: 1. Spark是什么? Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序,将批处理、流处理和交互分析结合起来。 2. RDD是什么? Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。 3. 阅读全文
posted @ 2020-05-11 14:54 闭关49天 阅读(369) 评论(0) 推荐(0) 编辑

2020年5月10日

摘要: 问题 对于给定的文件,应该使用多少个分区? 例如,假设我有一个10GB 文件,3个执行器,每个执行器有 2 个内核,3G内存。 我应该重新分配吗? 我应该使用多少个分区? 做出选择的更好方法是什么? 会默认重新分区么? 分析 Spark可以为一个RDD的每个分区运行一个并发任务,直到并发任务数等于集 阅读全文
posted @ 2020-05-10 17:53 闭关49天 阅读(603) 评论(0) 推荐(0) 编辑

摘要: GUI里调试Spark JOB 必须先安装好 Spark:https://www.cnblogs.com/yjyyjy/p/12860642.html 视频: https://study.163.com/course/courseLearn.htm?courseId=1210073161&share 阅读全文
posted @ 2020-05-10 05:16 闭关49天 阅读(448) 评论(0) 推荐(0) 编辑

2020年5月9日

摘要: Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下: 视频链接地址: https://study.163.com/course/courseLearn.htm?courseId=1210073161#/le 阅读全文
posted @ 2020-05-09 22:46 闭关49天 阅读(522) 评论(1) 推荐(0) 编辑

2020年5月5日

摘要: Spark Job log 文件分析: 下面是一个Spark 数据据统计Job 的 log 文件, 从前到后的顺序分析Job的执行过程(Spark local mode)。 启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S 阅读全文
posted @ 2020-05-05 00:32 闭关49天 阅读(527) 评论(0) 推荐(0) 编辑

2020年4月30日

摘要: 索引 SQL性能中最强大和最容易被误解的地方。在这篇文章中,我们将探讨: 索引的用途 如何创建和选择索引类型 讨论如何决定索引什么以及如何查看它是否有用。 Why? 数据库表可能会变大。惊人地,异常大。扫描数百万、数十亿或数万亿行数据,只返回两行或三行数据,这是一种巨大的浪费。索引可以帮助你避免这些 阅读全文
posted @ 2020-04-30 19:24 闭关49天 阅读(1886) 评论(0) 推荐(0) 编辑