2014年11月8日

spark Standalone

摘要: Spark Standalone Spark Standalone模式中,资源调度是Spark框架自己实现的,其节点类型分为Master节点和Worker节点,其中Driver运行在Master节点中,并且有常驻内存的Master进程守护,Worker节点上常驻Worker守... 阅读全文

posted @ 2014-11-08 23:37 毛小娃 阅读(311) 评论(0) 推荐(0) 编辑

spark shuffle

摘要: Spark Shuffle 1. Shuffle相关 当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运... 阅读全文

posted @ 2014-11-08 11:18 毛小娃 阅读(174) 评论(0) 推荐(0) 编辑

spark sql

摘要: Spark SQL运行机制 Spark SQL 对 SQL 语句的处理和关系型数据库对 SQL 语句的处理采用了类似的方法,首先会将 SQL 语句进行解析(Parse),然后形成一个 Tree,在后续的如绑定、优化等处理过程都是对 Tree 的操作,而操作的方法是采用 Rule,通过模式匹配,对... 阅读全文

posted @ 2014-11-08 11:00 毛小娃 阅读(150) 评论(0) 推荐(0) 编辑

导航