hadoop - 随笔分类 - 月未央

awk 有多个文件输入时，判断来源

摘要：当使用awk脚本进行跑数据时，如果输入文件有多个，且种类不同，若要根据不同文件做不同处理，文件识别方法如下： 1、若awk脚本要在hadoop上执行： if(match(ENVIRON["map_input_file"], "xxx") > 0){} 其中，xxx是能够唯一识别文件的一个字符串，可以阅读全文

posted @ 2017-06-28 16:54 月未央阅读(1373) 评论(0) 推荐(0)

查看hadoop上硬盘占用情况

摘要：hadoop fs -du /context/personal|sort -nr 阅读全文

posted @ 2016-07-30 17:32 月未央阅读(709) 评论(0) 推荐(0)

hadoop——Map/Reduce中combiner的使用

摘要：一、作用1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：map: (K1, V1) → list(K2, V2)combine: (K2, list(V2)) → list(K2, V2)reduce: (K2, list(V2)) → li... 阅读全文

posted @ 2015-09-25 14:29 月未央阅读(3306) 评论(0) 推荐(0)

Hadoop Streaming 实战：输出文件分割

摘要：转自http://blog.csdn.net/yfkiss/article/details/6406432我们知道，Hadoop streaming框架默认情况下会以'/t’作为分隔符，将每行第一个'/t’之前的部分作为key，其余内容作为value，如果没有'/t’分隔符，则整行作为key；这个k... 阅读全文

posted @ 2015-09-16 12:10 月未央阅读(445) 评论(0) 推荐(0)

随笔分类 - hadoop

awk 有多个文件输入时，判断来源

查看hadoop上硬盘占用情况

hadoop——Map/Reduce中combiner的使用

Hadoop Streaming 实战：输出文件分割

导航

公告

随笔分类 - hadoop

awk 有多个文件输入时，判断来源

查看hadoop上硬盘占用情况

hadoop——Map/Reduce中combiner的使用

Hadoop Streaming 实战： 输出文件分割

导航

公告

Hadoop Streaming 实战：输出文件分割