由于hadoop配置参数众多,所以只能是一点点的累积,持续更新......
===============================================================
配置conf/core-site.xml
参数 取值
fs.default.name 整个Hadoop文件系统的入口,Hadoop系统所有的节点关于这个文件的配置必须是统一的,在主节点当中namenode必须配置成主机名,不能配置成localhost
配置conf/hdfs-site.xml(自定设置hdfs的Configuration)
参数 取值
dfs.name.dir NameNode持久存储名空间及事务日志的本地文件系统路径(用于保存NameNode的fsimage和editlog文件)
dfs.data.dir DataNode存放数据的本地文件系统路径,逗号分割的列表(在Hadoop的文件系统中放入一份数据后,Hadoop需要把数据放置到不同的块中,这个配置信息就是记录这些数据分块放置目录的信息)
dfs.replication.num HDFS数据块的副本因子,默认为3
dfs.block.size 设置数据块大小(默认是64MB) value*1024*1024
dfs.read.prefetch.size 设置读取数据块
dfs.write.packet.size 通过DFSOutputStream类中内部类设置每次写packet包时的大小
io.bytes.per.checksum 校验数据块的大小复制块的个数
fs.checkpoint.dir 用于SecondaryNameNode用于存放fsimage和editlog的目录
df.balance.bandwidthPerSec Balancer查看节点可用存储的差异性,在达到特定的阀值后尝试执行balance。有很多空闲空间的新节点将被检测到,然后balancer开始从空闲空间很少的Data node拷贝数据到这个新节点。(默认为1MB/S,Balancer通过控制台的命令行启动,通过控制台取消或者关闭balancer)
配置conf/mapred-site.xml(自定设置mapreduce的Configuration)
参数 取值
mapred.job.tracker JobTracker的主机(或IP)和端口,如namenode:9001
mapred.system.dir MapReduce框架存储系统文件的HDFS路径,如/hadoop/mapred/system/
mapred.local.dir MapReduce临时数据存放的地方,是本地文件系统下逗号分割的路径列表
mapred.tasktracker.{map|reduce}.tasks.maximun 某一tasktracker上可运行的最大MapReduce任务数,这些任务将同时各自运行,默认为2
dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表
mapred.hosts/mapred.hosts.exclude 许可/拒绝TaskTracker列表
mapred.queue.names 设置作业要提交到哪条队列上去,如果没有指定相关队列名字,则会被提交到default队列中
mapred.acls.enabled 是否启动访问控制列表
io.sort.mb 排序map时内存缓冲区大小(默认为100M)
io.sort.spill.percent 缓冲内容阀值(默认为0.8)
io.sort.factor 控制着一次能最多合并多少流(默认为10)
mapred.submit.replication jab.jar副本数
io.sort.record.percent 用做存储map输出记录边界的io.sort.mb的比例。剩余的空间用来存储map输出记录本身(默认为0.05)
min.num.spills.for.combine 运行combine所需的最少溢出写文件数(默认为3)