09 2019 档案

摘要:在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 阅读全文
posted @ 2019-09-22 09:35 sw_kong 阅读(396) 评论(0) 推荐(0) 编辑
摘要:版本:spak2.3 相关源码:org.apache.spark.SparkContext 在创建spark任务时候,往往会指定一些依赖文件,通常我们可以在spark-submit脚本使用--files /path/to/file指定来实现。 但是公司产品的架构是通过livy来调spark任务,li 阅读全文
posted @ 2019-09-21 16:34 sw_kong 阅读(1973) 评论(0) 推荐(0) 编辑
摘要:IBM在spark summit上分享的内容,包括编译spark源码,运行spark时候常见问题(缺包、OOM、GC问题、hdfs数据分布不均匀等),spark任务堆/thread dump 目录 编译spark的问题 1.正确配置相关环境,如Maven,JRE 2.显示指定你要集成的功能 3.编译 阅读全文
posted @ 2019-09-18 07:38 sw_kong 阅读(249) 评论(0) 推荐(0) 编辑
摘要:使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然 Spark Jobs 已经全部完成了,但是程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL,这个 SQL 在最后生成了大量的文件。然后我们可以看到,这个 SQL 所有的 Spark Jobs 其实已经运行完成 阅读全文
posted @ 2019-09-16 21:01 sw_kong 阅读(702) 评论(0) 推荐(0) 编辑
摘要:通过spark2.3 sparksql saveAsTable()执行写数据到hive,sparksql写数据到hive时候,默认是保存为parquet+snappy的数据。在数据保存完成之后,通过hive beeline查询,报错如上。但是通过spark查询,执行正常。 在stackoverflo 阅读全文
posted @ 2019-09-04 22:19 sw_kong 阅读(1709) 评论(0) 推荐(0) 编辑
摘要:Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文
posted @ 2019-09-02 19:04 sw_kong 阅读(253) 评论(0) 推荐(0) 编辑
摘要:本文借鉴之前HBaseConAsia2017,小米公司对hbase g1 gc的优化分享。此外还可以参考apache官方博客对于hbase g1 gc优化的一篇文章(Tuning G1GC For Your HBase Cluster) g1 gc的优化主要是对一些重要的参数进行调整,然后执行压力测 阅读全文
posted @ 2019-09-01 17:13 sw_kong 阅读(846) 评论(0) 推荐(0) 编辑