Hadoop读写流程

一、HDFS读流程
1、client跟namenode通信查询元数据，找到文件块block所在的datanode服务器
2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流
3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验，大小为64k）
4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件
二、HDFS写流程
1、client向namenode发送写入请求，namenodea判断文件是否存在、是否拥有权限、父目录是否存在等；
2、namenode返回是否可以写入；
3、向namenode请求第一个block应该传输到哪些datanode服务器上；
4、namenode返回三个datanode服务器，这里的3是指默认需要将block备份三次；
5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，逐级返回客户端；
6、client向A传输第一个block,以packet(64kbyte)为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答;
7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

总结：
1、namenode是数据读写的唯一入口和出口；
2、读：clinet ------>(询问block所在位置) namenode -----> 与该datanode建立请求 -----> datanode发送数据
3、写：clinet ------>(询问文件是否能写入) namenode -----> 询问第一个block应该存储在那些datanode ------> 挑选datanode中的一台,建立请求
本质上是一个RPC调用，建立pipleline A----> B -----> C -------> 向A传输第一个block, A ---> B -----> C -----> 都传完才算一个block传输完毕。
接着传输下一个block。

发表于 2023-03-01 16:13 药水哥biss 阅读(187) 评论(0) 编辑收藏举报

公告