摘要: Spark中一个action触发一个job的执行,在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析,生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认,即生成相应的Task,将生成的Task 阅读全文
posted @ 2016-03-16 17:55 木石头 阅读(540) 评论(0) 推荐(0) 编辑
摘要: Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输, 阅读全文
posted @ 2016-03-16 17:41 木石头 阅读(250) 评论(0) 推荐(0) 编辑