摘要:
MapReduce的思想就是“分而治之”。 1)Mapper负责“分” 把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义: 数据或计算的规模相对原任务要大大缩小 就近计算原则,任务会分配到存放着所需数据的节点上进行计算 这些小任务可以并行计算彼此间几乎没有依赖关系 2)Red 阅读全文
摘要:
WritableComparable接口相当于继承了上述两个接口的新接口 : Public interface WritableComparable<T>extends Writable,Comparable<T> Writable接口: 基于DataInput与DatOutput的简单高效可序列化 阅读全文
摘要:
压缩好处:减少储存文件所需空间,还可以降低其在网络上传输的时间。 压缩算法对比 算法 原始文件大小 压缩后文件大小 压缩速度 解压缩速度 Gzip 8.3G 1.8G 17.5MB/s 58MB/s Bzip2 8.3G 1.1G 2.4MB/s 9.5MB/s LZO-bset 8.3G 2G 4 阅读全文
摘要:
HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。 小文件问题解决方案 在原有HDF 阅读全文
摘要:
hdfs完整性:用户希望储存和处理数据的时候,不会有任何损失或者损坏。所以提供了两种校验: 1.校验和(常用循环冗余校验CRC-32)。 2.运行后台进程来检测数据块。 校验和: a.写入数据节点验证 b.读取数据节点验证 c.恢复数据 d.Localfilesystem类 e.Checksumfi 阅读全文
摘要:
读数据过程: 1.客户端调用FileSystem 实例的open 方法,获得这个文件对应的输入流InputStream 2.访问NameNode,获取文件对应数据块的保存位置,包括副本位置。 3.获得输入流之后,客户端便调用read()方法读取数据。选择最近的datanode进行连接并读取数据。 4 阅读全文
摘要:
hdfs组成: 主控节点(NameNode)、从节点(DataNode)、客户端 1.NameNode NameNode是一个主控节点,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求。NameNode 保存了文件系统的三种元数据: 1) 命名空间, 即整个分布式文件系统的目录 阅读全文
摘要:
数据块是一组或几组按顺序连续排列在一起的记录,是主存储器与输入设备、输出设备或外存储器之间进行传输的数据单位。 在传统的块存储介质中,块是读写的最小数据单位 (扇区) 传统文件系统基于存储块进行操作 为了节省文件分配表空间,会对物理存进行储块整般合,一般大小为4096字节 HDFS也使用了块的概念, 阅读全文
摘要:
描述数据的数据就称为元数据。 一、元数据包括: 1.文件系统目录树信息 2.文件名,目录名 3.文件和目录的从属关系 4.文件和目录的大小,创建及最后访问时间 5.权限 二、文件和块的对应关系 文件由哪些块组成 三、块的存放位置 机器名,块ID 四、HDFS对元数据和实际数据采取分别存储的方法 元数 阅读全文
摘要:
在ssh无需密码登录以及jdk、hadoop路径配置好后,我们以master、slave1为例: 配置hadoop集群 一共有7个文件要修改: hadoop-2.6.0/etc/hadoop/hadoop-env.sh hadoop-2.6.0/etc/hadoop/yarn-env.sh hado 阅读全文