HDFS读写数据流程
文件写入
(1)HDFSClient上传文件到集群,HDFSClient会创建本地的分布式文件系统(Distributed FileSystem),向集群NameNode请求上传文件
(2)NameNode检查目录树是否允许创建文件,检查权限,检查目录结构。然后给客户端做出响应。
(3)若响应可以上传文件,HDFSClient会请求上传第一个Block,请求NameNode返回对应的DataNode信息。
(4)NameNode在返回对应的DataNode信息时会优先考虑节点距离和负载均衡等要素返回DataNode信息。
(5)HDFS创建文件传输流并与第一个DataNode建立传输通道,DataNode之间再建立传输通道。
(6)HDFS会创建缓冲队列,传输数据,传输数据的基本单位为Packet(每个Packet大小为64k,由chunk组成,每个chunk由512b和4b检验序列组成)ByteBuffer在DataNode的存储是并发的,有两份相同数据在操作,一份在存入DataNode另一份在传入到其它DataNode
文件读取
与文件写入类似。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理