摘要: Spark为什么会比mapreduce快,Spark存在的问题以及改进思路,与数据库思想的碰撞 阅读全文
posted @ 2017-10-31 18:36 hongma 阅读(175) 评论(0) 推荐(0) 编辑
摘要: hadoop家族 阅读全文
posted @ 2017-10-31 18:28 hongma 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 所谓动态引擎,就是说比如有很多张表的Join,原始的做法是一开始就生成好这个执行计划,随后执行,但实际上很多表Join的时候,你一开始生成的那个执行计划很有可能是不对的。 那么动态执行计划就是指它可以边执行边帮助搜集最准确的执行信息,从而调整后面的执行计划 ORACLE语法 → PostgreSQL 阅读全文
posted @ 2017-10-31 18:03 hongma 阅读(8565) 评论(0) 推荐(0) 编辑
摘要: 一、数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffl 阅读全文
posted @ 2017-10-31 18:02 hongma 阅读(6077) 评论(0) 推荐(2) 编辑
摘要: 参考: https://tech.meituan.com/spark-tuning-basic.html https://zhuanlan.zhihu.com/p/22024169 一、开发调优 1、避免创建重复RDD 对于同一份数据,只应该创建一个RDD,不要创建多个RDD来代表同一份数据。 2、 阅读全文
posted @ 2017-10-31 16:33 hongma 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 术语定义 Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Driver:Spark中的Driver即运行上述Appl 阅读全文
posted @ 2017-10-31 15:57 hongma 阅读(449) 评论(0) 推荐(0) 编辑