上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
摘要: 请参照wordcount实现一个自己的MapReduce,需求为: a. 输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式: xxx,20 xxx,30 xxx.40 c. 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示... 阅读全文
posted @ 2015-09-02 21:47 skyl夜 阅读(1373) 评论(0) 推荐(0) 编辑
摘要: 1).Hive中Select Top N的实现Hive中使用 Order by + Limit 可以很容易地实现Select Top N。但是在Hive中Order by只能使用1个Reduce,如果表的数据量很大,那么Order by就会力不从心。相对的,Sort by可以启动多个Reduce,每... 阅读全文
posted @ 2015-09-01 16:36 skyl夜 阅读(2760) 评论(0) 推荐(1) 编辑
摘要: 让你真正明白什么是MapReduce组合式,迭代式,链式 阅读全文
posted @ 2015-08-31 17:55 skyl夜 阅读(255) 评论(0) 推荐(0) 编辑
摘要: SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SequenceFile文件中,每一个key-value对被看做是一条记录(Record),基于Record的压缩策略,SequenceFile文件支持三种压缩类型:NON... 阅读全文
posted @ 2015-08-29 18:44 skyl夜 阅读(4174) 评论(0) 推荐(1) 编辑
摘要: SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中。可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1). 支持压缩,且可定制为基于Record或Block压缩(Block级压... 阅读全文
posted @ 2015-08-29 18:35 skyl夜 阅读(1621) 评论(0) 推荐(0) 编辑
摘要: 在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩。具体配置过详见配置hadoop集群的lzo压缩//压缩lzop,解压缩lzop -d[root@ncst word]# lzop words.txt [root@ncst word]# lswords.txt w... 阅读全文
posted @ 2015-08-28 13:48 skyl夜 阅读(3207) 评论(0) 推荐(0) 编辑
摘要: MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩1). 配置前的环境准备# yum -y install lzo-devel zlib-devel gcc autoconf automakelibtool2). (all) 在集群的所有节点上安装Lzo库 下载、解压,然后编译。并将... 阅读全文
posted @ 2015-08-27 18:25 skyl夜 阅读(1684) 评论(0) 推荐(0) 编辑
摘要: Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2。它们的优缺点和应用场景如下:1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linu... 阅读全文
posted @ 2015-08-27 15:37 skyl夜 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 输入格式类InputFormat用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map输入的键值对。getSplits()方法返回List集合,作用是将输入文件在逻辑上划分为多个输入分片,每个分片的数据... 阅读全文
posted @ 2015-08-27 13:52 skyl夜 阅读(682) 评论(0) 推荐(1) 编辑
摘要: 此文承接Job流程:Mapper类分析.MapReduce为确保每个reducer的输入都按键排序,数据从map输出到reducer输入的这段过程成为Shuffle。map端1).Spill溢写. 每个map()方法都将处理结果输出到一个环形内存缓冲区buf(100MB)中(mapreduce.ta... 阅读全文
posted @ 2015-08-27 11:48 skyl夜 阅读(702) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 10 下一页