DreamWorks

Never say Never。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

hadoop相关配置文件参数详细说明

Posted on 2013-07-10 12:42  _Babyface  阅读(671)  评论(0编辑  收藏  举报

由于hadoop配置参数众多,所以只能是一点点的累积,持续更新......

===============================================================

配置conf/core-site.xml

参数                                                  取值

fs.default.name                整个Hadoop文件系统的入口,Hadoop系统所有的节点关于这个文件的配置必须是统一的,在主节点当中namenode必须配置成主机名,不能配置成localhost

配置conf/hdfs-site.xml(自定设置hdfs的Configuration)

参数                  取值

dfs.name.dir            NameNode持久存储名空间及事务日志的本地文件系统路径(用于保存NameNode的fsimage和editlog文件)

dfs.data.dir            DataNode存放数据的本地文件系统路径,逗号分割的列表(在Hadoop的文件系统中放入一份数据后,Hadoop需要把数据放置到不同的块中,这个配置信息就是记录这些数据分块放置目录的信息)

dfs.replication.num        HDFS数据块的副本因子,默认为3

dfs.block.size           设置数据块大小(默认是64MB) value*1024*1024

dfs.read.prefetch.size       设置读取数据块

dfs.write.packet.size                     通过DFSOutputStream类中内部类设置每次写packet包时的大小

io.bytes.per.checksum       校验数据块的大小复制块的个数

fs.checkpoint.dir          用于SecondaryNameNode用于存放fsimage和editlog的目录

df.balance.bandwidthPerSec    Balancer查看节点可用存储的差异性,在达到特定的阀值后尝试执行balance。有很多空闲空间的新节点将被检测到,然后balancer开始从空闲空间很少的Data node拷贝数据到这个新节点。(默认为1MB/S,Balancer通过控制台的命令行启动,通过控制台取消或者关闭balancer

配置conf/mapred-site.xml(自定设置mapreduce的Configuration)

参数                                    取值

mapred.job.tracker                       JobTracker的主机(或IP)和端口,如namenode:9001

mapred.system.dir                        MapReduce框架存储系统文件的HDFS路径,如/hadoop/mapred/system/

mapred.local.dir                          MapReduce临时数据存放的地方,是本地文件系统下逗号分割的路径列表

mapred.tasktracker.{map|reduce}.tasks.maximun        某一tasktracker上可运行的最大MapReduce任务数,这些任务将同时各自运行,默认为2

dfs.hosts/dfs.hosts.exclude                  许可/拒绝DataNode列表

mapred.hosts/mapred.hosts.exclude              许可/拒绝TaskTracker列表

mapred.queue.names                      设置作业要提交到哪条队列上去,如果没有指定相关队列名字,则会被提交到default队列中

mapred.acls.enabled                      是否启动访问控制列表

io.sort.mb                           排序map时内存缓冲区大小(默认为100M)

io.sort.spill.percent                        缓冲内容阀值(默认为0.8)

io.sort.factor                          控制着一次能最多合并多少流(默认为10)

mapred.submit.replication                   jab.jar副本数

io.sort.record.percent                     用做存储map输出记录边界的io.sort.mb的比例。剩余的空间用来存储map输出记录本身(默认为0.05)

min.num.spills.for.combine                    运行combine所需的最少溢出写文件数(默认为3)