摘要: 摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与 阅读全文
posted @ 2017-10-07 17:59 0xcafedaddy 阅读(553) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming与Storm都可以做实时计算,那么在做技术选型的时候到底应该选择哪个呢?通过下图可以从计算模型、计算延迟、吞吐量、事物、容错性、动态并行度等方方面进行对比。 对于Storm来说: 1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进 阅读全文
posted @ 2017-10-07 09:13 0xcafedaddy 阅读(405) 评论(0) 推荐(0) 编辑