摘要: Spark2.X的内存管理模型如下图所示: Spark中的内存使用大致包括两种类型:执行和存储。执行内存是指用于用于shuffle、join、排序、聚合等计算的内存,而存储内存是指用于在集群中持久化和广播内部数据的内存。在Spark中,执行内存和存储内存共享... 阅读全文
posted @ 2019-03-08 17:31 大数据技术与数仓 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 转自:https://www.iteblog.com/archives/1672.html 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计... 阅读全文
posted @ 2019-03-08 15:48 大数据技术与数仓 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.系统资源使用 核心调优参数如下: (1)num-executors :该参数一定会被设置, Yarn 会按照Driver 的申请最终为当前的Application 生产指定个数的Executors。实际生产环境下分配80 个左右的Exe... 阅读全文
posted @ 2019-03-08 12:12 大数据技术与数仓 阅读(167) 评论(0) 推荐(0) 编辑