随笔分类 -  hadoop

awk 有多个文件输入时,判断来源
摘要:当使用awk脚本进行跑数据时,如果输入文件有多个,且种类不同,若要根据不同文件做不同处理,文件识别方法如下: 1、若awk脚本要在hadoop上执行: if(match(ENVIRON["map_input_file"], "xxx") > 0){} 其中,xxx是能够唯一识别文件的一个字符串,可以 阅读全文

posted @ 2017-06-28 16:54 月未央 阅读(1361) 评论(0) 推荐(0)

查看hadoop上硬盘占用情况
摘要:hadoop fs -du /context/personal|sort -nr 阅读全文

posted @ 2016-07-30 17:32 月未央 阅读(705) 评论(0) 推荐(0)

hadoop——Map/Reduce中combiner的使用
摘要:一、作用1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:map: (K1, V1) → list(K2, V2)combine: (K2, list(V2)) → list(K2, V2)reduce: (K2, list(V2)) → li... 阅读全文

posted @ 2015-09-25 14:29 月未央 阅读(3272) 评论(0) 推荐(0)

Hadoop Streaming 实战: 输出文件分割
摘要:转自http://blog.csdn.net/yfkiss/article/details/6406432我们知道,Hadoop streaming框架默认情况下会以'/t’作为分隔符,将每行第一个'/t’之前的部分作为key,其余内容作为value,如果没有'/t’分隔符,则整行作为key;这个k... 阅读全文

posted @ 2015-09-16 12:10 月未央 阅读(438) 评论(0) 推荐(0)

导航