上一页 1 ··· 8 9 10 11 12 13 14 下一页
摘要: 在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 阅读全文
posted @ 2019-09-22 09:35 sw_kong 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 版本:spak2.3 相关源码:org.apache.spark.SparkContext 在创建spark任务时候,往往会指定一些依赖文件,通常我们可以在spark-submit脚本使用--files /path/to/file指定来实现。 但是公司产品的架构是通过livy来调spark任务,li 阅读全文
posted @ 2019-09-21 16:34 sw_kong 阅读(1967) 评论(0) 推荐(0) 编辑
摘要: IBM在spark summit上分享的内容,包括编译spark源码,运行spark时候常见问题(缺包、OOM、GC问题、hdfs数据分布不均匀等),spark任务堆/thread dump 目录 编译spark的问题 1.正确配置相关环境,如Maven,JRE 2.显示指定你要集成的功能 3.编译 阅读全文
posted @ 2019-09-18 07:38 sw_kong 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然 Spark Jobs 已经全部完成了,但是程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL,这个 SQL 在最后生成了大量的文件。然后我们可以看到,这个 SQL 所有的 Spark Jobs 其实已经运行完成 阅读全文
posted @ 2019-09-16 21:01 sw_kong 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 通过spark2.3 sparksql saveAsTable()执行写数据到hive,sparksql写数据到hive时候,默认是保存为parquet+snappy的数据。在数据保存完成之后,通过hive beeline查询,报错如上。但是通过spark查询,执行正常。 在stackoverflo 阅读全文
posted @ 2019-09-04 22:19 sw_kong 阅读(1703) 评论(0) 推荐(0) 编辑
摘要: Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文
posted @ 2019-09-02 19:04 sw_kong 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 本文借鉴之前HBaseConAsia2017,小米公司对hbase g1 gc的优化分享。此外还可以参考apache官方博客对于hbase g1 gc优化的一篇文章(Tuning G1GC For Your HBase Cluster) g1 gc的优化主要是对一些重要的参数进行调整,然后执行压力测 阅读全文
posted @ 2019-09-01 17:13 sw_kong 阅读(842) 评论(0) 推荐(0) 编辑
摘要: 背景:由于CMS算法产生空间碎片和其它一系列的问题缺陷,HotSpot提供了另外一种垃圾回收策略,G1(也就是Garbage First)算法,该算法在JDK7u4版本被正式推出,官网对此描述如下: The Garbage-First (G1) collector is a server-style 阅读全文
posted @ 2019-08-31 09:29 sw_kong 阅读(434) 评论(0) 推荐(0) 编辑
摘要: HDFS(hdfs-site.xml)相关调整 dfs.datanode.synconclose = true dfs.datanode.synconclose set to false in hdfs-site.xml: data loss is possible on hard system r 阅读全文
posted @ 2019-08-26 11:16 sw_kong 阅读(4808) 评论(2) 推荐(1) 编辑
摘要: 19/08/12 14:15:35 ERROR cluster.YarnScheduler: Lost executor 5 on worker01.hadoop.mobile.cn: Container killed by YARN for exceeding memory limits. 5 GB of 5 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead. 阅读全文
posted @ 2019-08-24 09:45 sw_kong 阅读(5804) 评论(4) 推荐(5) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 下一页