hadoop部署注意项

namenode磁盘: sas带RAID,多磁盘存储文件系统元信息.

datanode配置: 不带RAID, 双网卡: 一个用于内部数据传输，一个用于外部数据传输.

hadoop各节点的分布:namenode和jobtracker部署:namenode与jobtracker分离.tasktracker与datanode配对.

Trash: hadoop回收站功能默认是禁止的，删除文件，就是直接删除了,所以要记得配置好trash。trash功能还是不错的，当rm后，它会move到当前文件夹下的.Trash目录下,误删文件后，可以到对应的.Trash目录下恢复文件，参考配置属性fs.trash.interval。

备份:namendoe的元数据切记做好多处备份，包括热备和冷备，否则元数据一丢，整个集群的数据都无法恢复了。热备:namenode的元数据配置写两份，一分写本地，另一份写远程nfs。冷备:定时拷贝namenode的元数据到远程的nfs，保留十天甚至更长。

Datanode的数据目录:如果datanode对应的机器上有多块磁盘，例如/disk1-/disk3,dfs.data.dir可以配置为”/disk1/data,/disk2/data,/disk3/data”,datanode会在写数据时,以轮询的方式选择一个目录写入数据，一般这些目录是不同的块设备，不存在的目录会被忽略掉,参考配置属性dfs.data.dir.datanode如果有多个磁盘不建议做raid,因为做raid会有性能损失,还会导致一个磁盘坏了,整个硬盘也不能用了，而hadoop可以规避这个问题。

Tasktracker的中间输出目录: MapReduce产生的中间数据会特别多，为了减少磁盘压力，如果机器有多个磁盘，也可以像datanode的数据目录设为”/disk1/local,/disk2/local,/disk3/local”,参考配置属性mapred.local.dir。

map和reduce任务的JVM选项:mapred.child.java.opts配置map和reduce子进程的JVM属性,如果内存充裕，可以改为 -Xmx2400m.

Tasktracker的map和reducer数量配置: 属性mapred.tasktracker.map.tasks.maximum配置这个tasktracker同时可以最多跑多少个map task,要根据tracker的内存和磁盘情况规划。还有属性mapred.tasktracker.reduce.tasks.maximum配置这个tasktracker同时可以最多跑多少个reduce task.同理也是要根据tracker的内存和磁盘情况规划。例如8核的机器，8个map和8个reducer。map中间结果开启压缩操作(尤其是snappy和LZO)的时候，cpu的负载会比较高，map和reducer的数量可以根据自己的业务情况灵活调节。

缓冲区大小:io.file.buffer.size默认是4KB，作为hadoop缓冲区，用于hadoop读hdfs的文件和写hdfs的文件，还有map的输出都用到了这个缓冲区容量，对于现在的硬件很保守，可以设置为128k(131072),甚至是1M(太大了map和reduce任务可能会内存溢出)。

noatime的设置:为了充分发挥性能，需要使用noatime选项挂载磁盘，表示执行读操作时，不更新文件的访问时间，可以显著提供性能。

CRC32 Intrinsic加速CRC校验:参考http://rdc.taobao.com/blog/cs/?p=1220

posted on 2012-07-25 17:37 ggjucheng 阅读(3636) 评论(0) 编辑收藏举报

刷新页面返回顶部

简单，可复制

公告