闭关49天 - 博客园

公告

2020年5月17日

摘要：在内存中缓存数据 Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或datafame .cache()来使用内存中的列格式缓存表。 Spark SQL将只扫描所需的列，并自动调整压缩，以最小化内存使用和GC压力。调用spark.catal 阅读全文

posted @ 2020-05-17 22:39 闭关49天阅读(725) 评论(0) 推荐(0) 编辑

Spark Job 性能调优（二）

摘要：优化资源分配在Spark的集群管理器(Yarn、Mesos和Spark单机)之间，这里的建议和配置略有不同，但是我们只关注Yarn，Cloudera向所有用户推荐Yarn。 Spark(和YARN) 考虑的两个主要资源是CPU和内存。当然，磁盘和网络I/O也对Spark性能有影响，但是Spark和阅读全文

posted @ 2020-05-17 21:51 闭关49天阅读(264) 评论(0) 推荐(0) 编辑

Spark 数据分析调优（一）

摘要： Apache Spark Job 调优以提高性能（一）假设你已经清楚了Spark 的 RDD 转换，Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时，Job、stage和task 也很清楚了。如果不清楚可以看我的视频（。。。。）在本文中，您将了解Spark程序阅读全文

posted @ 2020-05-17 17:09 闭关49天阅读(181) 评论(0) 推荐(0) 编辑

2020年5月11日

Spark 问题总结（二）

摘要： 1. RDD如何持久化数据? 有两种方法可以持久存储数据，比如持久存储 persist()和cache() 临时存储在内存中。有不同的存储级别选项，比如MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等等。 persist() 和 cache() 使用不同的选项取决于任务阅读全文

posted @ 2020-05-11 15:51 闭关49天阅读(268) 评论(0) 推荐(0) 编辑

Spark 问题总结（一）

摘要： 1. Spark是什么? Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序，将批处理、流处理和交互分析结合起来。 2. RDD是什么? Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。 3. 阅读全文

posted @ 2020-05-11 14:54 闭关49天阅读(369) 评论(0) 推荐(0) 编辑

2020年5月10日

Spark RDD 分区到底怎么用？

摘要：问题对于给定的文件，应该使用多少个分区? 例如，假设我有一个10GB 文件，3个执行器，每个执行器有 2 个内核，3G内存。我应该重新分配吗? 我应该使用多少个分区? 做出选择的更好方法是什么? 会默认重新分区么？分析 Spark可以为一个RDD的每个分区运行一个并发任务，直到并发任务数等于集阅读全文

posted @ 2020-05-10 17:53 闭关49天阅读(603) 评论(0) 推荐(0) 编辑

安装 Spyder python 开发环境用于 Spark 数据分析 -word count

摘要： GUI里调试Spark JOB 必须先安装好 Spark：https://www.cnblogs.com/yjyyjy/p/12860642.html 视频： https://study.163.com/course/courseLearn.htm?courseId=1210073161&share 阅读全文

posted @ 2020-05-10 05:16 闭关49天阅读(448) 评论(0) 推荐(0) 编辑

2020年5月9日

安装 Spark on Windows 使用 PySpark

摘要： Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析！环境搭建步骤如下：视频链接地址： https://study.163.com/course/courseLearn.htm?courseId=1210073161#/le 阅读全文

posted @ 2020-05-09 22:46 闭关49天阅读(522) 评论(1) 推荐(0) 编辑

2020年5月5日

从Spark 的 log 文件看 job 执行过程

摘要： Spark Job log 文件分析：下面是一个Spark 数据据统计Job 的 log 文件，从前到后的顺序分析Job的执行过程（Spark local mode）。启动 SparkContext 提交 Job RatingHistogram 20/05/04 18:02:20 INFO S 阅读全文

posted @ 2020-05-05 00:32 闭关49天阅读(527) 评论(0) 推荐(0) 编辑

2020年4月30日

Oracle数据库中的默认索引

摘要：索引 SQL性能中最强大和最容易被误解的地方。在这篇文章中，我们将探讨：索引的用途如何创建和选择索引类型讨论如何决定索引什么以及如何查看它是否有用。 Why？数据库表可能会变大。惊人地,异常大。扫描数百万、数十亿或数万亿行数据，只返回两行或三行数据，这是一种巨大的浪费。索引可以帮助你避免这些阅读全文

posted @ 2020-04-30 19:24 闭关49天阅读(1886) 评论(0) 推荐(0) 编辑