摘要: 1、Hadoop生态系统 2、HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。 是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 Cl... 阅读全文
posted @ 2015-01-21 14:24 dorothychai 阅读(14712) 评论(0) 推荐(0) 编辑
摘要: 第一次启动HDFS需对NameNode(简称NN)格式化 bin/hadoop namenode -format HDFS动态添加和删除DataNode(简称DN),DN无需格式化而是在第一次启动时创建存储目录。DN可以管理多个目录,配置${dfs.data.dir} = "/data/datanode,/data2/datanode" 1.1 ${dfs.data.dir}目录... 阅读全文
posted @ 2015-01-21 14:02 dorothychai 阅读(1375) 评论(0) 推荐(0) 编辑