2011 年 9月 1 日随笔档案 - 阿笨猫

2011年9月1日

tutorial sort reducer input values in hadoop

摘要： http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/I recently found the need to sort by value (intead of key) in Hadoop. I've seen some comments that call this a "secondary sort". Essentially, I wanted the reducer's values iterator to be sorted. There seem to 阅读全文

posted @ 2011-09-01 21:04 阿笨猫阅读(542) 评论(0) 推荐(0) 编辑

hadoop 0.20 程式開發 eclipse plugin + Makefile

摘要： http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617#%E9%9B%B6.%E5%89%8D%E8%A8%80http://qa.taobao.com/?p=10659http://ebiquity.umbc.edu/Tutorials/Hadoop/20%20-%20upload%20data.htmlhadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言¶開發hadoop 需要用到許多的物件導向語法，包括繼承關係、介面類別，而且需要匯入正確的classpath，否則寫hadoop程式只是打字練阅读全文

posted @ 2011-09-01 16:51 阿笨猫阅读(1219) 评论(0) 推荐(0) 编辑

HDFS 读写流程

摘要： http://blog.endlesscode.com/2010/06/16/hdfs-short-intro/一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的，默认的block大小为64MB，对于不足64MB的文件，其会占用一个bloc 阅读全文

posted @ 2011-09-01 16:29 阿笨猫阅读(2475) 评论(0) 推荐(1) 编辑

how mapreduce work

摘要： http://blog.endlesscode.com/2010/06/24/how-mapreduce-works/一、从Map到ReduceMapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流程的角度来看大概如下：1cat input | grep | sort | uniq -c | cat > output 2# Input -> Map -> Shuffle & Sort -> Reduce -> Output简单的流程图如下：对于Shuffl 阅读全文

posted @ 2011-09-01 16:27 阿笨猫阅读(759) 评论(0) 推荐(0) 编辑

Hadoop是怎么分块的

摘要： http://blog.chinaunix.net/space.php?uid=20602285&do=blog&cuid=2273160hadoop的分块有两部分，其中第一部分更为人熟知一点。第一部分就是数据的划分（即把File划分成Block），这个是物理上真真实实的进行了划分，数据文件上传到HDFS里的时候，需要划分成一块一块，每块的大小由hadoop-default.xml里配置选项进行划分。<property> <name>dfs.block.size</name> <value>67108864</value&g 阅读全文

posted @ 2011-09-01 14:51 阿笨猫阅读(11112) 评论(0) 推荐(2) 编辑

hadoop job解决大数据量关联时数据倾斜的一种办法

摘要： http://www.geminikwok.com/2011/04/02/hadoop-jobè§£å³å¤§æ°æ®éå³èæ—¶æ°æ®å¾æçä¸ç§åæ³/数据倾斜是指，map /reduce程序执行时，reduce节点大阅读全文

posted @ 2011-09-01 14:00 阿笨猫阅读(6261) 评论(0) 推荐(1) 编辑

hadoop job解决大数据量关联的一种方法

摘要： http://www.geminikwok.com/2011/04/02/hadoop-job%C3%A8%C2%A7%C2%A3%C3%A5%C2%86%C2%B3%C3%A5%C2%A4%C2%A7%C3%A6%C2%95%C2%B0%C3%A6%C2%8D%C2%AE%C3%A9%C2%87%C2%8F%C3%A5%C2%85%C2%B3%C3%A8%C2%81%C2%94%C3%A7%C2%9A%C2%84%C3%A4%C2%B8%C2%80%C3%A7%C2%A7%C2%8D%C3%A6%C2%96%C2%B9%C3%A6%C2%B3%C2%95/用java写的hadoop程序实现关阅读全文

posted @ 2011-09-01 13:53 阿笨猫阅读(1256) 评论(0) 推荐(0) 编辑