HDFS之JAVAAPI

JAVAAPI

上传小文件

代码

上面的例子完成了把一个字符串输出到hdfs中的/test目录中。

原理

见上传大文件的例子

上传大文件

代码

原理

客户端调用FileSystem的create方法创建文件，这个时候会远程调用NameNode，在文件系统的命名空间中创建一个新的文件，NameNode创建新文件时需要执行各种各样的检查，如NameNode是否正常工作，被创建的文件已经存在，客户端是否有在父目录中创建文件的权限等。这些检查都通过以后，NameNode会创建一个新的文件，并记录创建操作到编辑日志edit中。当创建完成一个新的空文件以后，客户端需要向NameNode节点申请数据块，执行addBlock方法。该方法执行成功以后，会返回一个LocatedBlock对象，该对象包含了新数据块的数据块标识和版本号。根据该LocatedBlock对象，客户端就可以和对应的DataNode联系，然后通过写操作，把一个一个Block写入到DataNode中。当写完一个数据包以后，DataNode节点通过调用NameNode节点的DatanodeProtocol远程接口的blockReceived方法，向NameNode提交数据块信息。当把所有的数据写完以后，就会调用close方法关闭流。

创建一个目录

代码

原理

客户端调用HDFS的FileSystem实例，也就是DistributedFileSystem的mkdir方法，该对象通过远程调用NameNode节点上的远程方法mkdir ,让NameNode执行具体的创建子目录操作。在目录树数据结构上的对应位置创建新的目录节点，同时记录这个操作并持久化到日志中。在整个操作期间，客户端和NameNode都不需要和DataNode节点交互。

删除一个文件

代码

原理

同以上的步骤，先在NameNode上执行节点名字的删除，但是DataNode上存放的数据块也必须删除。当NameNode执行delete方法时，它只标记操作涉及的需要被删除的数据块，而不会主动联系这些数据块所在的DataNode节点。当保存着这些数据块的DataNode节点向NameNode节点发送心跳时，在心跳应答里，NameNode节点会向DataNode发出指令，从而把数据删除掉。所以在执行完delete方法后的一段时间内，数据块才能被真正的删除掉。

读文件

代码

原理

客户端通过FileSystem.open()打开文件，在打开文件的时候，实际上创建了一个DFSInputStream输入流，返回给了客户端，客户端使用这个输入流读取数据，在输入流中会通过ClientProtocol.getBlockLocations方法来确定NameNode节点上标识的文件数据块的保存位置(在DataNode节点上)。完成上述步骤，客户端就知道了要读取的文件在哪个DataNode节点上，在哪个数据块中。当执行FSDataInputStream的read方法时，客户端的FSDataInputStream会和最近的数据节点建立联系。

查看某一个文件的具体位置

在这里，通过hdfs.getFileStatus(path)来得到指定路径下的文件的信息，可以得到的信息有

文件的大小、文件的复制集、文件的block、block所在的host，host的名字等信息。

查看datanode节点信息

posted @ 2016-08-19 17:29 周蓬勃阅读(216) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部