摘要:
namevalueDescriptionhadoop.job.history.locationjob历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location用户历史文件存放位置io.sort.factor30这里处理流合并时的文件排序数,我理解为排序时打开的文件数io.sort.mb600排序所使用的内存数量,单位兆,默认1,我记得是不能超过mapred.child.java.opt设置,否则会OOMmapred.job.trackerhadoopmaster:9001连接jobtrack服务 阅读全文
摘要:
namevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间,秒为单位,只对snn生效,默认一小时fs.checkpoint.size33554432以日志大小间隔做备份间隔,只对snn生效,默认64Mio.compressi 阅读全文
摘要:
namevalueDescriptiondfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留,0字节dfs.name.dir/opt/data1/hdfs/name,/opt/data2/hdfs/name,/nfs/data/hdfs/nameNN所使用的元数据保存,一般建议在nfs上保留一份,作为1.0的HA方案使用,也可以在一台服务器的多块硬盘上使用df 阅读全文
摘要:
HDFS设计基础与目标硬件错误是常态。因此需要冗余流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理(随机性的读写数据等)。大规模数据集简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改程序采用“数据就近“原则分配节点执行HDFS体系结构Namenode:管理文件系统的命名空间记录每个文件数据块在各个Datanode上的位置和副本信息协调客户端对文件的访问记录命名空间内的改动或空间本身属性的改动Namenode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射(f 阅读全文