2017年12月21日

MapReduce——shuffle

摘要: Shuffle过程是MR的一个核心。 简答了解Shuffle的作用: 需求场景: 在集群环境下,Map task和Reduce task运行在不同的节点上,这个情况下Reduce执行时需要跨节点从其他节点上拉取Map task的输出结果。如果集群上又很多任务在运行,会在运行时消耗很严重的网络资源(这 阅读全文

posted @ 2017-12-21 21:09 悟倩 阅读(146) 评论(0) 推荐(0) 编辑

Hive框架学习

摘要: 一、Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称 阅读全文

posted @ 2017-12-21 08:00 悟倩 阅读(139) 评论(0) 推荐(0) 编辑

导航