2017年12月21日

MapReduce——shuffle

摘要: Shuffle过程是MR的一个核心。 简答了解Shuffle的作用: 需求场景: 在集群环境下,Map task和Reduce task运行在不同的节点上,这个情况下Reduce执行时需要跨节点从其他节点上拉取Map task的输出结果。如果集群上又很多任务在运行,会在运行时消耗很严重的网络资源(这 阅读全文

posted @ 2017-12-21 21:09 悟倩 阅读(146) 评论(0) 推荐(0) 编辑

Hive框架学习

摘要: 一、Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称 阅读全文

posted @ 2017-12-21 08:00 悟倩 阅读(139) 评论(0) 推荐(0) 编辑

2017年12月20日

[Hadoop]MapReduce中的InputSplit

摘要: 在查看数据块的如何处理之前,我们需要更仔细地了解Hadoop如何存储数据。在Hadoop中,文件由一个一个的记录组成,最终由mapper任务一个一个的处理。 例如,示例数据集包含有关1987至2008年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址: http://stat-compu 阅读全文

posted @ 2017-12-20 21:32 悟倩 阅读(1735) 评论(0) 推荐(0) 编辑

JAVA正则表达式:Pattern类与Matcher类详解(转)

摘要: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式。 Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式 阅读全文

posted @ 2017-12-20 21:21 悟倩 阅读(116) 评论(0) 推荐(0) 编辑

hadoop2升级的那点事情(详解)

摘要: 前言 前阵子,公司的hadoop从hadoop1.02升级到hadoop2.4.1,记录下升级的步骤和遇到的问题,和大家分享,希望别人可以少走一些弯路 技术选型 当前使用版本: apache hadoop 1.0.2 hive 0.10 升级目标版本 Apache hadoop 2.4.1 Hive 阅读全文

posted @ 2017-12-20 21:19 悟倩 阅读(408) 评论(0) 推荐(0) 编辑

导航