摘要:
http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/I recently found the need to sort by value (intead of key) in Hadoop. I've seen some comments that call this a "secondary sort". Essentially, I wanted the reducer's values iterator to be sorted. There seem to 阅读全文
摘要:
http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617#%E9%9B%B6.%E5%89%8D%E8%A8%80http://qa.taobao.com/?p=10659http://ebiquity.umbc.edu/Tutorials/Hadoop/20%20-%20upload%20data.htmlhadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言¶開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練 阅读全文
摘要:
http://blog.endlesscode.com/2010/06/16/hdfs-short-intro/一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个bloc 阅读全文
摘要:
http://blog.endlesscode.com/2010/06/24/how-mapreduce-works/一、从Map到ReduceMapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流程的角度来看大概如下:1cat input | grep | sort | uniq -c | cat > output 2# Input -> Map -> Shuffle & Sort -> Reduce -> Output简单的流程图如下:对于Shuffl 阅读全文
摘要:
http://blog.chinaunix.net/space.php?uid=20602285&do=blog&cuid=2273160hadoop的分块有两部分,其中第一部分更为人熟知一点。第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。<property> <name>dfs.block.size</name> <value>67108864</value&g 阅读全文
摘要:
http://www.geminikwok.com/2011/04/02/hadoop-job解å³å¤§æ°æ®éå
³èæ—¶æ°æ®å¾æçä¸ç§åæ³/数据倾斜是指,map /reduce程序执行时,reduce节点大 阅读全文
摘要:
http://www.geminikwok.com/2011/04/02/hadoop-job%C3%A8%C2%A7%C2%A3%C3%A5%C2%86%C2%B3%C3%A5%C2%A4%C2%A7%C3%A6%C2%95%C2%B0%C3%A6%C2%8D%C2%AE%C3%A9%C2%87%C2%8F%C3%A5%C2%85%C2%B3%C3%A8%C2%81%C2%94%C3%A7%C2%9A%C2%84%C3%A4%C2%B8%C2%80%C3%A7%C2%A7%C2%8D%C3%A6%C2%96%C2%B9%C3%A6%C2%B3%C2%95/用java写的hadoop程序实现关 阅读全文