hadoop - 随笔分类 - 谭志宇

hadoop二次排序

摘要：import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.IOException;import java.util.StringTokenizer;import org.apache.h... 阅读全文

posted @ 2014-11-05 15:36 谭志宇阅读(1065) 评论(0) 推荐(0) 编辑

yarn默认配置

摘要：namevaluedescriptionyarn.ipc.client.factory.classFactory to create client IPC classes.yarn.ipc.serializer.typeprotocolbuffersType of serialization to ... 阅读全文

posted @ 2014-10-13 21:04 谭志宇阅读(13031) 评论(0) 推荐(0) 编辑

解决Storm 和yarn 8080 端口冲突

摘要：本机装了Yarn和Storm后，启动Storm后，发现NodeMange无法启动，找了下没找着在哪修改。只好修改Storm的配置,在配置上添加ui.port: "9999"再启动，问题解决. 阅读全文

posted @ 2014-09-29 21:23 谭志宇阅读(1143) 评论(0) 推荐(0) 编辑

总结的MR中连接操作

摘要：1 reduce side join在map端加上标记, 在reduce容器保存，然后作笛卡尔积缺点: 有可能oom2 map side join 2.1 利用内存和分布式缓存，也有oom风险2.2 自己的想法，参考hive桶的思路, 第一次MR，将两个文件相同的方法分文件输出并打上标记，排序输出，... 阅读全文

posted @ 2014-09-20 20:36 谭志宇阅读(509) 评论(0) 推荐(0) 编辑

MapFile

摘要：MapFile是排序后的SequenceFile, 这个排序是由开发者来保证的，不是内存实现.相当于对key作了一个分块索引, 只针对key.缺点1.文件不支持复写操作，不能向已存在的SequenceFile(MapFile)追加存储记录2.当write流不关闭的时候，没有办法构造read流。也就... 阅读全文

posted @ 2014-09-18 11:07 谭志宇阅读(252) 评论(0) 推荐(0) 编辑

HDFS副本存放读取

摘要：HDFS作为Hadoop中的一个分布式文件系统，而且是专门为它的MapReduce设计，所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外，还必须为 MapReduce提供高效的读写性能，那么HDFS是如何做到这些的呢？首先，HDFS将每一个文件的数据进行分块存储，同时每一个数据块又保存有... 阅读全文

posted @ 2014-09-18 11:00 谭志宇阅读(7090) 评论(1) 推荐(1) 编辑

Mapreduce-Partition分析(转)

摘要：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要... 阅读全文

posted @ 2014-09-13 22:26 谭志宇阅读(405) 评论(0) 推荐(0) 编辑

hadoop核心逻辑shuffle代码分析-map端 (转)

摘要：一直对书和各种介绍不太满意，终于看到一篇比较好的了，迅速转载.首先要推荐一下：http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程，强烈推荐先读一下。不过，上文没有写明一些实现的细节... 阅读全文

posted @ 2014-09-13 19:46 谭志宇阅读(316) 评论(0) 推荐(0) 编辑

MR中简单实现自定义的输入输出格式

摘要：import java.io.DataOutput;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import ... 阅读全文

posted @ 2014-09-08 20:47 谭志宇阅读(1424) 评论(0) 推荐(0) 编辑

简单实现CombineFileInputFormat

摘要：import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.a... 阅读全文

posted @ 2014-09-08 12:19 谭志宇阅读(1449) 评论(0) 推荐(0) 编辑

提高mapreduce性能的七点建议

摘要：Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人... 阅读全文

posted @ 2014-09-05 11:33 谭志宇阅读(763) 评论(0) 推荐(0) 编辑

MR中使用sequnceFIle输入文件

摘要：转换原始数据为块压缩的SequenceFIleimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;imp... 阅读全文

posted @ 2014-09-04 21:37 谭志宇阅读(1645) 评论(0) 推荐(0) 编辑

hadoop 错误

摘要：1错误：DataXceiver error processing WRITE_BLOCK operation2014-05-06 15:21:30,378 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-datanode1:... 阅读全文

posted @ 2014-08-27 16:02 谭志宇阅读(1282) 评论(0) 推荐(0) 编辑

CDH4.5.0下安装lzo

摘要：参考 http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/1.0.1/Installing-and-Using-Impala/ciiu_lzo.htmlsudo apt-get install liblzo2-d... 阅读全文

posted @ 2014-07-29 15:40 谭志宇阅读(860) 评论(0) 推荐(0) 编辑

CDH4.5.0下安装snappy

摘要：编译源代码 http://www.cnblogs.com/chengxin1982/p/3862289.html 测试参考 http://blog.jeoygin.org/2012/03/java-compression-library-test.html1 snappy参考地址http://sst... 阅读全文

posted @ 2014-07-23 09:56 谭志宇阅读(3583) 评论(0) 推荐(0) 编辑

CDH4.5.0源代码编译

摘要：Unable to load native-hadoop library for your platform解决安装maven1 cmake-2.8.12.1.tar.gzcd cmake-2.8.12.1 ./bootstrap make sudo make install2 安装ant expo... 阅读全文

posted @ 2014-07-23 09:47 谭志宇阅读(1444) 评论(0) 推荐(0) 编辑

hadoop中compare函数

摘要：在看hadoop 的二次排序的时候，改写了下，加了第三个参数, 本来以为是在 public int compareTo(IntPair o) { System.out.println("-----------compareTo"); if (first != o.first... 阅读全文

posted @ 2014-07-18 16:02 谭志宇阅读(962) 评论(0) 推荐(0) 编辑

继承FileInputFormat类来理解 FileInputFormat类

摘要：import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.File... 阅读全文

posted @ 2014-07-16 17:17 谭志宇阅读(2287) 评论(0) 推荐(0) 编辑

解决cdh4.5.0下 MAP任务看不到状态

摘要：参考 http://qnalist.com/questions/772595/yarn-jobhistory-service在mapreduce-site.xml中添加 mapreduce.framework.name yarn mapreduce.jobhistory.address master... 阅读全文

posted @ 2014-07-16 09:52 谭志宇阅读(207) 评论(0) 推荐(0) 编辑

Yarn下分片和分块源代码分析

摘要：public class FileSplit extends InputSplit implements Writable { private Path file; private long start; private long length; private String[] hosts; pu... 阅读全文

posted @ 2014-07-15 17:03 谭志宇阅读(738) 评论(0) 推荐(0) 编辑

随笔分类 - hadoop

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论