hadoop配置项笔记 - yarn
hadoop版本:3.1.1
yarn-site.xml
yarn.log-aggregation-enable
作用:是否开启任务日志收集
默认值:false
我的设置:true
yarn.log-aggregation.retain-seconds
作用:日志自动清理前保存多长时间,单位秒。
默认值:-1
我的设置:864000
yarn.log-aggregation.retain-check-interval-seconds
作用:检查日志保留与否的时间间隔,单位秒。
默认值:-1 如果为0或负值,则计算为yarn.log-aggregation.retain-seconds的1/10.
我的设置:-1
yarn.resourcemanager.nodes.include-path
yarn.resourcemanager.nodes.exclude-path
作用:控制或排除nodemanager。可以是文件名的完整路经名,文件每一行是一台结点机器的IP或hostname。
默认值:空
我的设置:空
yarn.scheduler.minimum-allocation-mb
yarn.scheduler.maximum-allocation-mb
作用:每个容器向ResourceManager可申请的最小/最大内存,单位MB。
默认值:1024/8192
我的设置:随需要调整。
mapred-site.xml
mapreduce.map.memory.mb
作用:每个mapper申请的内存大小,单位MB
默认值:-1
我的设置:随需要调整。
mapreduce.map.java.opts
作用:为运行JVM程序准备的。mapper的child jvm的最大堆大小,单位MB
默认值:?
我的设置:-Xmx1014M,随需要调整。
mapreduce.reduce.memory.mb
作用:每个reducer申请的内存大小,单位MB
默认值:-1
我的设置:随需要调整。
mapreduce.reduce.java.opts
作用:为运行JVM程序准备的。reducer的child jvm的最大堆大小,单位MB
默认值:?
我的设置:-Xmx2560M,随需要调整。
mapreduce.task.timeout
作用:mr任务超时时间,超时将被自动杀死。超时的定义:既不读input,又不写output,还不更新status string。单位毫秒,设置为0则disable此配置。
默认值:600000 (10分钟)
我的设置:默认。随需要调整。
mapreduce.map.maxattempts
mapreduce.reduce.maxattempts
作用:map和reduce任务的最多尝试次数。
注意任务尝试(task attempt)被中止(killed)与任务失败(task failure)不同,前者不计入。
默认值:4
我的设置:默认。随需要调整。
mapreduce.map.failures.maxpercent
mapreduce.reduce.failures.maxpercent
作用:map和reduce任务的最多失败百分比。
默认值:?
我的设置:5。随需要调整。
mapreduce.task.io.sort.mb
作用:shuffle阶段排序时,mapper任务输出的内存缓冲区总大小,单位MB。
默认值:100
我的设置:默认。随需要调整。
mapreduce.map.sort.spill.percent
作用:shuffle阶段排序时,将内容写进磁盘的缓冲区阈值百分比。
默认值:0.80
我的设置:默认。随需要调整。
mapreduce.map.combine.minspills
作用:shuffle阶段排序时,运行combiner所需要的最少spill files数。
默认值:0.80
我的设置:默认。随需要调整。
mapreduce.task.io.sort.factor
作用:shuffle阶段排序时,每次内存缓存溢出阈值,都会生成一个溢出文件(spill file)。多个spill file会被合并,此配置项控制reducer一次最多合并多少流。
默认值:10
我的设置:默认。随需要调整,建议适当提高。
mapreduce.reduce.shuffle.parallelcopies
作用:shuffle阶段排序时,reduce并行复制mapper输出的线程数。
默认值:5.
我的设置:默认。随需要调整。