2019 年 9月随笔档案 - sw_kong

浅析 Spark Shuffle 内存使用

摘要：在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 阅读全文

posted @ 2019-09-22 09:35 sw_kong 阅读(396) 评论(0) 推荐(0) 编辑

通过 spark.files 传入spark任务依赖的文件源码分析

摘要：版本：spak2.3 相关源码：org.apache.spark.SparkContext 在创建spark任务时候，往往会指定一些依赖文件，通常我们可以在spark-submit脚本使用--files /path/to/file指定来实现。但是公司产品的架构是通过livy来调spark任务，li 阅读全文

posted @ 2019-09-21 16:34 sw_kong 阅读(1973) 评论(0) 推荐(0) 编辑

Spark 2.x Troubleshooting Guide

摘要：IBM在spark summit上分享的内容，包括编译spark源码，运行spark时候常见问题（缺包、OOM、GC问题、hdfs数据分布不均匀等），spark任务堆/thread dump 目录编译spark的问题 1.正确配置相关环境，如Maven,JRE 2.显示指定你要集成的功能 3.编译阅读全文

posted @ 2019-09-18 07:38 sw_kong 阅读(249) 评论(0) 推荐(0) 编辑

Spark 2.x 在作业完成时却花费很长时间结束

摘要：使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然 Spark Jobs 已经全部完成了，但是程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成阅读全文

posted @ 2019-09-16 21:01 sw_kong 阅读(702) 评论(0) 推荐(0) 编辑

ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs:...

摘要：通过spark2.3 sparksql saveAsTable()执行写数据到hive，sparksql写数据到hive时候，默认是保存为parquet+snappy的数据。在数据保存完成之后，通过hive beeline查询，报错如上。但是通过spark查询，执行正常。在stackoverflo 阅读全文

posted @ 2019-09-04 22:19 sw_kong 阅读(1709) 评论(0) 推荐(0) 编辑

[转]Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践

摘要：Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文

posted @ 2019-09-02 19:04 sw_kong 阅读(253) 评论(0) 推荐(0) 编辑

hbase G1 GC优化

摘要：本文借鉴之前HBaseConAsia2017，小米公司对hbase g1 gc的优化分享。此外还可以参考apache官方博客对于hbase g1 gc优化的一篇文章（Tuning G1GC For Your HBase Cluster） g1 gc的优化主要是对一些重要的参数进行调整，然后执行压力测阅读全文

posted @ 2019-09-01 17:13 sw_kong 阅读(846) 评论(0) 推荐(0) 编辑

sw_kong

09 2019 档案

公告