摘要:
为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见:http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -... 阅读全文
2014年8月3日 #
摘要:
MapReduce计算框架将计算过程分为两个阶段:Map和Reduce Map阶段并行处理输入数据; Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘; Reduce Task从每个Map Task上读取一份数据;仅适合离... 阅读全文