Hadoop3.1.1源码Client详解 : Packet入队后消息系统运作之DataStreamer(Packet发送) : 处理异常
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览
紧接着上一篇文章: Hadoop3.1.1源码Client详解 : Packet入队后消息系统运作之DataStreamer(Packet发送) : 主干
本文均是对DataStreamer的processDatanodeOrExternalError方法的讲解
DataStreamer是客户端管理和DataNode间互收发包的线程类
在他的run方法里,processDatanodeOrExternalError方法用来处理流水线异常
上图中,的橙色框是关闭掉和流水线间的Stream,也就是数据传输流,而不是关闭DataStreamer,两者完全不一样。
DataStreamer可以开多次Stream和流水线通信。关闭一次无所谓。只要设置好环境,再开就好了。
总结一下步骤:
1.查看是否有错误,没有的话返回fasle,表示DataStreamer不用休眠,有错误的话转2
2.如果有错误首先重新架设流水线,转3
3.如果ResponseProcessor没关闭,那么返回true,表示DataStreamer应该休眠一会,等待ResponseProcessor关闭。如果ResponseProcessor已经关闭则转4
4.检查流水线状态,如果是处于流水线关闭阶段,则不重发最后一个Packet(lastPacket也就是告知DataNode我们已经写完了Block的Packet),假装从流水线上收到了关于这个Packet的ACK
然后,序号设置成lastPacket的序号,以保证序号一致,最后调用endBlock结束当前Block的写入的流程。如果流水线不处于关闭状态,那么继续创作新的ResponseProcessor来接收流水线上的ACK,并且把流水线状态设置成DATA_STREAMING。