随笔分类 -  Spark

学习Spark,进击大数据
摘要:这是我在平时工作中分析spark程序报错以及性能问题时的一般步骤。当然,首先说明一下,以上分析步骤是基于企业级大数据平台,该平台会抹平很多开发难度,比如会有调度日志(spark-submit日志)、运维平台等加持,减少了开发人员直接接触生成服务器命令行的可能,从物理角度进行了硬控制,提高了安全性。下面我将带领大家从零到一,从取日志,到在Spark WebUI进行可视化分析相关报错、性能问题的方法。 阅读全文
posted @ 2020-10-12 16:52 JasonCeng 阅读(635) 评论(0) 推荐(0) 编辑
摘要:本文通过精炼的归纳总结和翔实的举例说明列举出SparkSQL开发过程中经常出错的,需要注意的一些细节,欢迎交流~ 阅读全文
posted @ 2020-01-20 14:13 JasonCeng 阅读(367) 评论(0) 推荐(0) 编辑
摘要:今天在开发SparkRDD的过程中出现Buffer Overflow错误,查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了,日志建议调大spark.kryoserializer.buffer.max的value,搜索了一下设置keyo序列化缓冲区的方法,特此整理记录下来。 阅读全文
posted @ 2020-01-08 23:39 JasonCeng 阅读(10936) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示