瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2014年8月3日 #

摘要: 为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见:http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -... 阅读全文
posted @ 2014-08-03 16:04 瞌睡中的葡萄虎 阅读(1626) 评论(0) 推荐(0) 编辑

摘要: MapReduce计算框架将计算过程分为两个阶段:Map和Reduce Map阶段并行处理输入数据; Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘; Reduce Task从每个Map Task上读取一份数据;仅适合离... 阅读全文
posted @ 2014-08-03 14:41 瞌睡中的葡萄虎 阅读(1594) 评论(1) 推荐(2) 编辑