2019 年 3月 8 日随笔档案 - 大数据技术与数仓

摘要： Spark2.X的内存管理模型如下图所示： Spark中的内存使用大致包括两种类型：执行和存储。执行内存是指用于用于shuffle、join、排序、聚合等计算的内存，而存储内存是指用于在集群中持久化和广播内部数据的内存。在Spark中，执行内存和存储内存共享... 阅读全文

posted @ 2019-03-08 17:31 大数据技术与数仓阅读(180) 评论(0) 推荐(0) 编辑

摘要：转自：https://www.iteblog.com/archives/1672.html 在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计... 阅读全文

posted @ 2019-03-08 15:48 大数据技术与数仓阅读(124) 评论(0) 推荐(0) 编辑

摘要： 1.系统资源使用核心调优参数如下： (1)num-executors ：该参数一定会被设置， Yarn 会按照Driver 的申请最终为当前的Application 生产指定个数的Executors。实际生产环境下分配80 个左右的Exe... 阅读全文

posted @ 2019-03-08 12:12 大数据技术与数仓阅读(167) 评论(0) 推荐(0) 编辑

大数据技术与数仓