hadoop streaming示例
hadoop streaming示例:
${HADOOP_BIN} streaming \r
-D mapred.job.name=${JOB_NAME} # 任务名
-D stream.memory.limit=1500 # 任务内存限制
-D mapred.map.capacity.per.tasktracker=1 \r
-D mapred.reduce.capacity.per.tasktracker=1 \r
-D mapred.map.tasks=${MAP_TASKS} # map个数
-D mapred.job.map.capacity=${MAP_CAPACITY} # map容量,一般与map个数一致
-D mapred.reduce.tasks=${RED_TASKS} # reduce个数
-D mapred.job.reduce.capacity=${RED_CAPACITY} # reduce容量,一般与reduce容量一致
-D mapred.job.priority=${MAPRED_PRIORITY} # 任务优先级
-D mapred.userlog.retain.hours=${LOG_RETAIN_HOURS} \r
-D stream.num.map.output.key.fields=3 # map的结果按前三列排序
-D num.key.fields.for.partition=1 # 第一列相同的数据分配到同一个reducer
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \r
-input /log/1079/cpro_pblog_noah/20110814/*/pb.log* # 输入
-input /log/1079/cpro_pblog_noah/20110815/*/pb.log* # 输入
-input /log/3148/shifen_bdclk_noah/20110814/*/dcharge.bd.*.log* # 输入
-input /log/3148/shifen_bdclk_noah/20110815/*/dcharge.bd.*.log* # 输入
-output ${REDUCE_OUT} # 输出
-mapper "java6/bin/java -classpath ad_trade com.baidu.cm.ufs.Mapper testno.txt" # mapper程序
-reducer "java6/bin/java -classpath ad_trade com.baidu.cm.ufs.Reducer" # reducer程序
-file ad_trade # 要上传分发的文件
-file testno.txt \r
-cacheArchive /app/ecom/cm/nova.ufs/u-wangyou/java6.tar.gz#java6 # hdfs上要分发的压缩包,解压后的文件夹名为java6
-D mapred.job.name=${JOB_NAME} # 任务名
-D stream.memory.limit=1500 # 任务内存限制
-D mapred.map.capacity.per.tasktracker=1 \r
-D mapred.reduce.capacity.per.tasktracker=1 \r
-D mapred.map.tasks=${MAP_TASKS} # map个数
-D mapred.job.map.capacity=${MAP_CAPACITY} # map容量,一般与map个数一致
-D mapred.reduce.tasks=${RED_TASKS} # reduce个数
-D mapred.job.reduce.capacity=${RED_CAPACITY} # reduce容量,一般与reduce容量一致
-D mapred.job.priority=${MAPRED_PRIORITY} # 任务优先级
-D mapred.userlog.retain.hours=${LOG_RETAIN_HOURS} \r
-D stream.num.map.output.key.fields=3 # map的结果按前三列排序
-D num.key.fields.for.partition=1 # 第一列相同的数据分配到同一个reducer
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \r
-input /log/1079/cpro_pblog_noah/20110814/*/pb.log* # 输入
-input /log/1079/cpro_pblog_noah/20110815/*/pb.log* # 输入
-input /log/3148/shifen_bdclk_noah/20110814/*/dcharge.bd.*.log* # 输入
-input /log/3148/shifen_bdclk_noah/20110815/*/dcharge.bd.*.log* # 输入
-output ${REDUCE_OUT} # 输出
-mapper "java6/bin/java -classpath ad_trade com.baidu.cm.ufs.Mapper testno.txt" # mapper程序
-reducer "java6/bin/java -classpath ad_trade com.baidu.cm.ufs.Reducer" # reducer程序
-file ad_trade # 要上传分发的文件
-file testno.txt \r
-cacheArchive /app/ecom/cm/nova.ufs/u-wangyou/java6.tar.gz#java6 # hdfs上要分发的压缩包,解压后的文件夹名为java6

本文基于署名 2.5 中国大陆许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名小橋流水(包含链接)。如您有任何疑问或者授权方面的协商,请给我发邮件。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?