Hadoop3.1.1源码Client详解 : Packet入队后消息系统运作之DataStreamer(Packet发送) : 处理异常

该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览

紧接着上一篇文章: Hadoop3.1.1源码Client详解 : Packet入队后消息系统运作之DataStreamer(Packet发送) : 主干

本文均是对DataStreamer的processDatanodeOrExternalError方法的讲解

 DataStreamer是客户端管理和DataNode间互收发包的线程类

 在他的run方法里,processDatanodeOrExternalError方法用来处理流水线异常

 

 上图中,的橙色框是关闭掉和流水线间的Stream,也就是数据传输流,而不是关闭DataStreamer,两者完全不一样。

 DataStreamer可以开多次Stream和流水线通信。关闭一次无所谓。只要设置好环境,再开就好了。

 

 总结一下步骤:

 1.查看是否有错误,没有的话返回fasle,表示DataStreamer不用休眠,有错误的话转2

 2.如果有错误首先重新架设流水线,转3

 3.如果ResponseProcessor没关闭,那么返回true,表示DataStreamer应该休眠一会,等待ResponseProcessor关闭。如果ResponseProcessor已经关闭则转4

 4.检查流水线状态,如果是处于流水线关闭阶段,则不重发最后一个Packet(lastPacket也就是告知DataNode我们已经写完了Block的Packet),假装从流水线上收到了关于这个Packet的ACK

 然后,序号设置成lastPacket的序号,以保证序号一致,最后调用endBlock结束当前Block的写入的流程。如果流水线不处于关闭状态,那么继续创作新的ResponseProcessor来接收流水线上的ACK,并且把流水线状态设置成DATA_STREAMING。

 

posted @ 2020-02-22 19:23  执生  阅读(317)  评论(0编辑  收藏  举报