sw_kong

2019年9月22日

摘要：在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 阅读全文

posted @ 2019-09-22 09:35 sw_kong 阅读(394) 评论(0) 推荐(0) 编辑

2019年9月21日

通过 spark.files 传入spark任务依赖的文件源码分析

摘要：版本：spak2.3 相关源码：org.apache.spark.SparkContext 在创建spark任务时候，往往会指定一些依赖文件，通常我们可以在spark-submit脚本使用--files /path/to/file指定来实现。但是公司产品的架构是通过livy来调spark任务，li 阅读全文

posted @ 2019-09-21 16:34 sw_kong 阅读(1967) 评论(0) 推荐(0) 编辑

2019年9月18日

Spark 2.x Troubleshooting Guide

摘要： IBM在spark summit上分享的内容，包括编译spark源码，运行spark时候常见问题（缺包、OOM、GC问题、hdfs数据分布不均匀等），spark任务堆/thread dump 目录编译spark的问题 1.正确配置相关环境，如Maven,JRE 2.显示指定你要集成的功能 3.编译阅读全文

posted @ 2019-09-18 07:38 sw_kong 阅读(249) 评论(0) 推荐(0) 编辑

2019年9月16日

Spark 2.x 在作业完成时却花费很长时间结束

摘要：使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然 Spark Jobs 已经全部完成了，但是程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成阅读全文

posted @ 2019-09-16 21:01 sw_kong 阅读(695) 评论(0) 推荐(0) 编辑

2019年9月4日

ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs:...

摘要：通过spark2.3 sparksql saveAsTable()执行写数据到hive，sparksql写数据到hive时候，默认是保存为parquet+snappy的数据。在数据保存完成之后，通过hive beeline查询，报错如上。但是通过spark查询，执行正常。在stackoverflo 阅读全文

posted @ 2019-09-04 22:19 sw_kong 阅读(1703) 评论(0) 推荐(0) 编辑

2019年9月2日

[转]Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践

摘要： Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文

posted @ 2019-09-02 19:04 sw_kong 阅读(253) 评论(0) 推荐(0) 编辑

2019年9月1日

hbase G1 GC优化

摘要：本文借鉴之前HBaseConAsia2017，小米公司对hbase g1 gc的优化分享。此外还可以参考apache官方博客对于hbase g1 gc优化的一篇文章（Tuning G1GC For Your HBase Cluster） g1 gc的优化主要是对一些重要的参数进行调整，然后执行压力测阅读全文

posted @ 2019-09-01 17:13 sw_kong 阅读(842) 评论(0) 推荐(0) 编辑

2019年8月31日

G1 collector 介绍

摘要：背景：由于CMS算法产生空间碎片和其它一系列的问题缺陷，HotSpot提供了另外一种垃圾回收策略，G1（也就是Garbage First）算法，该算法在JDK7u4版本被正式推出，官网对此描述如下： The Garbage-First (G1) collector is a server-style 阅读全文

posted @ 2019-08-31 09:29 sw_kong 阅读(434) 评论(0) 推荐(0) 编辑

2019年8月26日

hbase性能优化，看这篇就够了

摘要： HDFS（hdfs-site.xml）相关调整 dfs.datanode.synconclose = true dfs.datanode.synconclose set to false in hdfs-site.xml: data loss is possible on hard system r 阅读全文

posted @ 2019-08-26 11:16 sw_kong 阅读(4808) 评论(2) 推荐(1) 编辑

2019年8月24日

Container killed by YARN for exceeding memory limits

摘要： 19/08/12 14:15:35 ERROR cluster.YarnScheduler: Lost executor 5 on worker01.hadoop.mobile.cn: Container killed by YARN for exceeding memory limits. 5 GB of 5 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead. 阅读全文

posted @ 2019-08-24 09:45 sw_kong 阅读(5804) 评论(4) 推荐(5) 编辑

公告