【转载】TCP演进简述

TCP演进简述

http://www.cnblogs.com/fll/

一、互联网概述

TCP,即传输控制协议,是目前网络上使用的最多的传输协议,我们知道,整个互联网的体系结构是以IP协议提供的无连接的端到端的报文传输服务为基础,在这种体系结构下,那么端到端的数据传输需要自己来保证数据的可靠性,TCP所作的就是这样的工作,它提供了端到端的数据可靠性的传输,当然,在互联网上没有100%的可靠性保证。正是因为TCP的贡献,所以自从提出后就成为了网络的标准传输协议。

先来看下TCP的是如何保证数据可靠传输的,TCP对所传输的数据都做了序号标记,序号是按照字节数来增长的,TCP的接收方在接到数据后发出一个确认(ACK)给对端,ACK里面包含一个序列号,这个序列号n表示序号在n之前的数据已经全部收到了,现在期待序号为n的数据到来。我们必须要知道的一个事实就是,主机发去网络上的任何一个数据包都有可能在网络上被丢弃,由于网络中路由器处理能力限制、链路错误等原因都会导致数据包的丢弃。如果ACK被丢弃了的话,,那么就要靠重传机制了。TCP对发出去的数据包都保留有计时器,如果定时器到而确认还没有收到的情况下,TCP会对刚才发送的数据包进行重传。TCP使用确认和超时重传机制保障了数据的可靠性传输。

再看流量控制方面,由于数据的发送方和接收方并不一定有相同的数据处理能力,为了避免数据发送过快而超过对方的接收能力,TCP采用了流量控制机制,接收方在TCP的包头里面通告了发送方自己的接收窗口,也就是还能够接收的最多的数据包,这样TCP就不会过度发包而超过对方的接收能力。

似乎看上去TCP已经很完美了,它提供了端到端的数据可靠性保证,并且还考虑对端的接收能力,事实上TCP的最初设计也就是这么一些机制,具体可以看RFC793的文档。注意到这篇文档的日期为1981年,TCP从此开始出现在互联网上传输数据。1986年10月,一件事情的发生使得TCP开启了一个新领域,从美国LBL到UC Berkeley的数据吞吐量从32Kbps下降到40bps,具体可以参见V. Jacobson的论文“Congestion Avoidance and Control”,请记住这篇文章,我们后面还会多次提到它。是什么原因导致了数据吞吐量如此严重的下降呢?原来在TCP的控制机制里面只考虑到了接收端的接受能力,而忽略了一个很重要的方面,那就是没有考虑到网络自己的传输能力,从而造成了整个网络崩溃的发生。从这以后,TCP的研究课题就开始多了一个方向,那就是拥塞控制,因为拥塞控制算法对保证互联网的稳定性具有十分重要的作用,其中以V. Jacobson的那篇论文开创了互联网网拥塞控制领域的工作。

什么是拥塞?

当网络中存在过多的报文时,网络的性能就会相应下降,这种现象就被成为拥塞。Copy一篇论文中的话来解释下:

 

如上图,当负载较小时,吞吐量的增长与负载相比基本呈线性关系,延时(即第二个图的纵坐标:响应时间)增长缓慢,但是当负载超过Knee点后,吞吐量增长十分缓慢,但是延迟却增长较快,当负载超过Cliff之后,吞吐量就急剧下降,延迟相应急剧上升。Cliff点也就是网络的最大负载,一旦超过网络的整体性能就大打折扣。而负载在Knee附近时网络的使用效率是最高的,此时吞吐量高,响应时间也比较快。拥塞控制的思想就是网络中的节点采取一定的措施来保证尽量使得网络的负载保持在Knee位置,需要避免拥塞的发生或者对拥塞的发生作出反应,使其能够再次恢复到Knee位置,从而保持网络的整体性能最大化。

与上面介绍的TCP的流控比较下就可以发现,流控主要是考虑接收端,不要发送过快,超过对方的接收能力,而拥塞控制则是要考虑到整个网络环境,使其负载不能超过网络的最大承受能力。显然拥塞发生的原因是因为“需求”大于了“供给”,网络中的有限资源被多用户共享使用,网络本身无法根据资源的利用情况来限制某些用户,并且随着目前互联网的发展,上网的用户和应用的数量也随之增长,这样,如果不采取某种措施来协调资源的使用,那么拥塞的发生就是必然的。

一般来说,拥塞控制算法包括拥塞避免和拥塞控制两个方面,拥塞避免是一种预防机制,也就是说避免网络进入拥塞状态,尽量使得网络保持在高吞吐量和低延迟的情况下。对应的拥塞控制就是恢复机制了,它使得网络一旦发生了拥塞,需要从拥塞状态中恢复出来,重新进入高吞吐量和低延迟的状态。看起来比较容易,然后事情不是想象中的那么简单。

看看为什么拥塞控制是一件比较困难的事情尤其是要做到很到的拥塞控制时让网络的利用率达到最大化。

首先是互联网的模型,目前互联网采用的是报文交换(packet-switched)网络,比起之前的电路交换相比,报文交换大大提高了网络的资源利用率(关于这一点,看看IP电话就知道为什么IP电话便宜了)。但是报文交换网络使得整个网络变为分布式的,在网络中间没有连接的概念,造成了每个节点所获得的信息不是很完整,而不完整的信息要完成比较好的拥塞控制,那是非常困难的。

其次就是网络环境是非常复杂的,互联网上各处的网络性能有很大的差异,比如说网通到电信的跨运营商网络丢包率就非常大,网络中间还有瓶颈链路,因此算法必须要有很好的适应性才行,处理报文丢失、乱序等情况。

第三就是算法的性能要求,整个主要包括公平性、效率、稳定性和收敛性等各个方面。公平性主要指在带宽占用方面,不能一条连接占据了大部分带宽,而让其他的连接无法跑应用。效率指的是在带宽充足的时候要能够充分利用带宽,避免带宽的浪费。稳定性则是要能够长久的运行,而不能一段时间后就出现无法上面所说的一些性能要求。收敛性性则是要对网络的动态变化快速做出响应,从而调整整个网络重新达到平衡状态。

第四点需要考虑到就是算法的开销,拥塞算法必须尽量地减少附加的网络流量,尤其是在拥塞恢复的时候。这就要求各个节点间的通信要尽可能少,这个要求使得算法设计变得十分困难。同时算法还必须网络节点的计算复杂性,否则就会降低网络节点对其它数据包的处理能力。

为了防止网络的拥塞现象,TCP提出了一系列的拥塞控制机制。最初由V. Jacobson在1988年的论文中提出的TCP的拥塞控制由“慢启动(Slow start)”和“拥塞避免(Congestion avoidance)”组成,后来TCP Reno版本中又针对性的加入了“快速重传(Fast retransmit)”、“快速恢复(Fast Recovery)”算法,再后来在TCP NewReno中又对“快速恢复”算法进行了改进,近些年又出现了选择性应答( selective acknowledgement,SACK)算法,还有其他方面的大大小小的改进,成为网络研究的一个热点。

TCP的拥塞控制主要原理依赖于一个拥塞窗口(cwnd)来控制,在之前我们还讨论过TCP还有一个对端通告的接收窗口(rwnd)用于流量控制。窗口值的大小就代表能够发送出去的但还没有收到ACK的最大数据报文段,显然窗口越大那么数据发送的速度也就越快,但是也有越可能使得网络出现拥塞,如果窗口值为1,那么就简化为一个停等协议,每发送一个数据,都要等到对方的确认才能发送第二个数据包,显然数据传输效率低下。TCP的拥塞控制算法就是要在这两者之间权衡,选取最好的cwnd值,从而使得网络吞吐量最大化且不产生拥塞。

由于需要考虑拥塞控制和流量控制两个方面的内容,因此TCP的真正的发送窗口=min(rwnd, cwnd)。但是rwnd是由对端确定的,网络环境对其没有影响,所以在考虑拥塞的时候我们一般不考虑rwnd的值,我们暂时只讨论如何确定cwnd值的大小。关于cwnd的单位,在TCP中是以字节来做单位的,我们假设TCP每次传输都是按照MSS大小来发送数据的,因此你可以认为cwnd按照数据包个数来做单位也可以理解,所以有时我们说cwnd增加1也就是相当于字节数增加1个MSS大小。

慢启动:最初的TCP在连接建立成功后会向网络中发送大量的数据包,这样很容易导致网络中路由器缓存空间耗尽,从而发生拥塞。因此新建立的连接不能够一开始就大量发送数据包,而只能根据网络情况逐步增加每次发送的数据量,以避免上述现象的发生。具体来说,当新建连接时,cwnd初始化为1个最大报文段(MSS)大小,发送端开始按照拥塞窗口大小发送数据,每当有一个报文段被确认,cwnd就增加1个MSS大小。这样cwnd的值就随着网络往返时间(Round Trip Time,RTT)呈指数级增长,事实上,慢启动的速度一点也不慢,只是它的起点比较低一点而已。我们可以简单计算下:

   开始           --->     cwnd = 1

   经过1个RTT后   --->     cwnd = 2*1 = 2

   经过2个RTT后   --->     cwnd = 2*2= 4

   经过3个RTT后   --->     cwnd = 4*2 = 8

如果带宽为W,那么经过RTT*log2W时间就可以占满带宽。

拥塞避免:从慢启动可以看到,cwnd可以很快的增长上来,从而最大程度利用网络带宽资源,但是cwnd不能一直这样无限增长下去,一定需要某个限制。TCP使用了一个叫慢启动门限(ssthresh)的变量,当cwnd超过该值后,慢启动过程结束,进入拥塞避免阶段。对于大多数TCP实现来说,ssthresh的值是65536(同样以字节计算)。拥塞避免的主要思想是加法增大,也就是cwnd的值不再指数级往上升,开始加法增加。此时当窗口中所有的报文段都被确认时,cwnd的大小加1,cwnd的值就随着RTT开始线性增加,这样就可以避免增长过快导致网络拥塞,慢慢的增加调整到网络的最佳值。

上面讨论的两个机制都是没有检测到拥塞的情况下的行为,那么当发现拥塞了cwnd又该怎样去调整呢?

首先来看TCP是如何确定网络进入了拥塞状态的,TCP认为网络拥塞的主要依据是它重传了一个报文段。上面提到过,TCP对每一个报文段都有一个定时器,称为重传定时器(RTO),当RTO超时且还没有得到数据确认,那么TCP就会对该报文段进行重传,当发生超时时,那么出现拥塞的可能性就很大,某个报文段可能在网络中某处丢失,并且后续的报文段也没有了消息,在这种情况下,TCP反应比较“强烈”:

1.把ssthresh降低为cwnd值的一半

2.把cwnd重新设置为1

3.重新进入慢启动过程。

从整体上来讲,TCP拥塞控制窗口变化的原则是AIMD原则,即加法增大、乘法减小。可以看出TCP的该原则可以较好地保证流之间的公平性,因为一旦出现丢包,那么立即减半退避,可以给其他新建的流留有足够的空间,从而保证整个的公平性。

其实TCP还有一种情况会进行重传:那就是收到3个相同的ACK。TCP在收到乱序到达包时就会立即发送ACK,TCP利用3个相同的ACK来判定数据包的丢失,此时进行快速重传,快速重传做的事情有:

1.把ssthresh设置为cwnd的一半

2.把cwnd再设置为ssthresh的值(具体实现有些为ssthresh+3)

3.重新进入拥塞避免阶段。

后来的“快速恢复”算法是在上述的“快速重传”算法后添加的,当收到3个重复ACK时,TCP最后进入的不是拥塞避免阶段,而是快速恢复阶段。快速重传和快速恢复算法一般同时使用。快速恢复的思想是“数据包守恒”原则,即同一个时刻在网络中的数据包数量是恒定的,只有当“老”数据包离开了网络后,才能向网络中发送一个“新”的数据包,如果发送方收到一个重复的ACK,那么根据TCP的ACK机制就表明有一个数据包离开了网络,于是cwnd加1。如果能够严格按照该原则那么网络中很少会发生拥塞,事实上拥塞控制的目的也就在修正违反该原则的地方。

具体来说快速恢复的主要步骤是:

1.当收到3个重复ACK时,把ssthresh设置为cwnd的一半,把cwnd设置为ssthresh的值加3,然后重传丢失的报文段,加3的原因是因为收到3个重复的ACK,表明有3个“老”的数据包离开了网络。 

2.再收到重复的ACK时,拥塞窗口增加1。

3.当收到新的数据包的ACK时,把cwnd设置为第一步中的ssthresh的值。原因是因为该ACK确认了新的数据,说明从重复ACK时的数据都已收到,该恢复过程已经结束,可以回到恢复之前的状态了,也即再次进入拥塞避免状态。

快速重传算法首次出现在4.3BSD的Tahoe版本,快速恢复首次出现在4.3BSD的Reno版本,也称之为Reno版的TCP拥塞控制算法。

可以看出Reno的快速重传算法是针对一个包的重传情况的,然而在实际中,一个重传超时可能导致许多的数据包的重传,因此当多个数据包从一个数据窗口中丢失时并且触发快速重传和快速恢复算法时,问题就产生了。因此NewReno出现了,它在Reno快速恢复的基础上稍加了修改,可以恢复一个窗口内多个包丢失的情况。具体来讲就是:Reno在收到一个新的数据的ACK时就退出了快速恢复状态了,而NewReno需要收到该窗口内所有数据包的确认后才会退出快速恢复状态,从而更一步提高吞吐量。

SACK就是改变TCP的确认机制,最初的TCP只确认当前已连续收到的数据,SACK则把乱序等信息会全部告诉对方,从而减少数据发送方重传的盲目性。比如说序号1,2,3,5,7的数据收到了,那么普通的ACK只会确认序列号4,而SACK会把当前的5,7已经收到的信息在SACK选项里面告知对端,从而提高性能,当使用SACK的时候,NewReno算法可以不使用,因为SACK本身携带的信息就可以使得发送方有足够的信息来知道需要重传哪些包,而不需要重传哪些包。

以上方面资料可以参考V. Jacobson的论文RFC2001RFC2018RFC2581RFC2582RFC2883等文献。

四、TCP拥塞的其他方面:

1994年,Brakmo提出了一种新的拥塞控制机制TCP Vegas,从另外的一个角度来进行拥塞控制。从前面可以看到,TCP的拥塞控制是基于丢包的,一旦出现丢包,于是调整拥塞窗口,然而由于丢包不一定是由于网络进入了拥塞,但是由于RTT值与网络运行情况有比较密切的关系,于是TCP Vegas利用RTT值的改变来判断网络是否拥塞,从而调整拥塞控制窗口。如果发现RTT在增大,Vegas就认为网络正在发生拥塞,于是开始减小拥塞窗口,如果RTT变小,Vegas认为网络拥塞正在逐步解除,于是再次增加拥塞窗口。由于Vegas不是利用丢包来判断网络可用带宽,而是利用RTT变化来判断,因而可以更精确的探测网络的可用带宽,从而效率更好。然而Vegas的有一个缺陷,并且可以说致命的,最终影响TCP Vegas并没有在互联网上大规模使用。这个问题就是采用TCP Vegas的流的带宽竞争力不及未使用TCP Vegas的流,这是因为网络中路由器只要缓冲了数据,就会造成RTT的变大,如果缓冲区没有溢出的话,并不会发生拥塞,但是由于缓存数据就会导致处理时延,从而RTT变大,特别是在带宽比较小的网络上,只要一开始传输数据,RTT就会急剧增大,这个在无线网络上特别明显。在这种情况下,TCP Vegas降低自己的拥塞窗口,但是只要没有丢包的话,从上面看到标准的TCP是不会降低自己的窗口的,于是两者开始不公平,再这样循环下去,TCP Vegas的效率就非常低了。其实如果所有的TCP都采用Vegas拥塞控制方式的话,流之间的公平性会更好,竞争能力并不是Vegas算法本身的问题。

另外介绍下Limited transmit。这个算法是在拥塞窗口比较小的时候如果在一个传输窗口内有多个包丢失时比较有效率的恢复算法。之前已经讲过,TCP有一个快速恢复的机制,而快速恢复的前提是收到3个重复ACK。然而,接收方发送重复ACK却又需要乱序包的到达才可以触发,TCP在每收到一个乱序包就会立即发送一个重复的ACK给发送端。如果拥塞窗口比较小的时候会发生情况呢?发送方和接收方进入一段互相等待的状况,接收方等待再收到一个包于是发生重复ACK,而发送方却等待第3个重复ACK,如果窗口较小,例如为3,如果此时第一个包丢失了,接收方对第二个和第三个包分别发送了重复ACK,总共两个重复ACK,此时发送端由于窗口的关系不能再发送数据,此时双方进入互等,直到发送方的重传超时计时器到,才能打破该僵局,显然如果是这样的话效率就明显降低,因为重传超时的时间设置为RTT+4×RTTVar,一般该值都比较大。

Limited Transmit就是为了解决这种情况的,它的方法很简单,那就是当收到两个重复ACK时,检测两个条件:

1)接收方的通告窗口rwnd是否允许传输新的数据包,即是否满足rwnd>cwnd?

2)停留在网络中的数据包个数是否小于或等于cwnd+2?

如果这两个条件都满足的话,那么TCP再发送新的数据包,其实第二个条件换个意思理解就是说在这种情况下可以超出拥塞窗口最多再发送两个数据包。假设新的数据包和相应的ACK不被丢失的话,那么有了这两个新的数据包,从而双方可以立即从僵局中恢复出来,发送方接着进入标准的快速恢复。注意的是尽管可以发送两个新的数据包,但是cwnd的值要保持不变,而不能把它增加2。显然Limited Transmit算法比利用超时重传在包乱序时具有更好的鲁棒性。

此外,由于一开始的TCP协议设计中,通常假设网络中乱序现象很少发生,但是随着Internet乱序现象的增多(有两篇文章详细论述过:Packet Reordering is Not Pathological  network BehaviorMeasurement and Classification of Out-of-Sequence Packets in a Tier-1 IP Backbone),TCP会把乱序误认为是丢包的发生,从而降低自己的发生速率,影响了自己的性能。针对这种情况,又有了新的改进算法见此(On Making TCP More Robust to Packet Reordering),不再详细说明。

另外还有Eifel算法,具体参看RFC3522RFC4015。Eiffel算法主要是用于TCP发送方更好的区分伪重传,Eifel算法利用了TCP的时间戳选项。

由于网络拥塞控制的重要性,因而TCP的拥塞控制方面的研究及改进非常多,对于标准的TCP拥塞控制,暂时先到此。

这个世界在一直变化着,任何事物如果停留在原地,最终是要被淘汰的,TCP的拥塞控制算法也是如此。

90年代中后期到21世纪以来,Internet得到迅猛发展,首先是拥塞现象变得越来越严重,其次是高带宽的网络出现,从100Mbps到1Gbps到10Gbps,再者很多对数据敏感的应用越来越多,如音视频应用等,这些对TCP的传统的拥塞控制算法提出了巨大的挑战。

首先来看高带宽和高时延网络情况,这种网络通常称之为长肥网络(Long Fat Network, LFN),也称之为高带宽时延乘积网络(High-Bandwidth-Delay-Product Network,BDP)。带宽时延乘积(BDP)通常表示网络通道的容量,也就是能够在网络中缓冲的数据量,显然带宽增大一倍或者时延增大一倍都会使得通道的容量加倍。当这个乘积变得越来越大时,TCP的局限性及开始暴露出来。一个100Mbps的网络,如果时延是100ms,那么BDP为100,000,000*0.1/8=1,250,000字节=1220.7K,如果是1Gbps的网络时延为100ms,那么BDP为12207K左右,如果TCP跑在这种网络上,那么效率是非常低的,从TCP的首部中我们可以看到TCP利用16位来表示接收窗口rwnd大小,16位能表示的最大值是65535,由于TCP的发送窗口是取拥塞窗口cwnd和对端的接收窗口rwnd两者之间的最小值,那么显然发送窗口最大只能到65535(以字节为单位),显然该值与我们上述的网络BDP相差得太远,那么TCP就只能发送一阵数据然后就等待ACK,极端下去就有点像“停等协议”了。这样TCP就无法充分利用网络带宽,浪费带宽现象严重。

窗口扩大选项:为了解决窗口过小的问题,TCP利用起了它的选项功能,从TCP的头部可以看到TCP预留了一定的选项功能,用于扩展等用途。窗口扩大选项增加了额外的16位来表示窗口大小,窗口的值由首部的16位大小和选项的16位值共同组成,不过不是用加法组成的,而是利用移位窗口值的幂来表示的,也就是说如果移位窗口值为10,那么窗口的最大值就是65535*210,这个值就比较大了,足够表示窗口的大小了。

好,窗口太小的问题解决了,我们再来看窗口增长的机制存在的问题。通过前面的TCP的拥塞控制的机制我们可以看到TCP的增长方式是AIMD原则的,即加法增大,在拥塞避免阶段,每次增加1,按照我们上面计算的网络环境1Gbps,100ms时延,其窗口大小到12,500,000,如果按照最理想的情况每个包大小为1500个字节的话,那么必须需要8333个包大小的拥塞窗口,也就是要8333个RTT才能增长到这个值,这个时间还随着RTT和带宽的增大而增大,而且在增长过程中只要一出现丢包的话,那么窗口就立即减半,此时又得重新开始增长,显然该增长函数不能满足现在网络的需要。

其次,传统的TCP总是把包的丢失解释为网络发生了拥塞,而假定链路错误造成的分组丢失是忽略不计的,这种情况是基于当时V. Jacobson的观察,认为链路错误的几率太低从而可以忽略,然而在高速网络中,这种假设是不成立的,当数据传输速率比较高时,链路错误是不能忽略的。在无线网络中,链路的误码率更高,因此,如果笼统地认为分组丢失就是拥塞所引起的,从而降低一半的速率,这是对网络资源的极大浪费。拥塞的判断需要两个连续的分组丢失。

最后就是网络的应用的多样化,音视频应用越来越多,而音视频基本上都是用UDP来传输数据,UDP不提供数据可靠性的保障,同时也没有拥塞控制和流控,因此当UDP和TCP在一起竞争的时候,如果造成丢包的话,此时TCP退避三舍,而UDP照样传输,显然会造成TCP的应用会变得奇慢,当然这个本质不是TCP的问题,但是给TCP带来了问题。

针对上述问题,TCP的拥塞控制进入了新的阶段,百花齐放,出现了很多研究热点,其中比较集中的方面有:“慢启动”过程的改进,基于速率的拥塞控制,ECN,和针对特殊网络(无线网络和卫星网络)的拥塞控制。最初提出了HSTCP,后来又出现了BI-TCP,CUBIC TCP、FastTCP、TCP-Westwood等一系列的改进,UDP的应用开始了TCP-Friendly的拥塞控制,出现了TFRC,最近又有了DCCP。

下一节:HSTCP和BI-TCP。

六、HSTCP

注意到上面所提到的TCP的一些缺陷,国外学者开始提出新的拥塞控制方法,最先由Floyd提出了HSTCP(High-Speed TCP),并在2003年由ietf组织标准化(rfc3649)。

HSTCP为了所达到的目标:

1.单个连接能够达到高吞吐率而不需要不现实的低丢包率要求。上面提到,普通的TCP要想在1Gbps,100ms的环境下达到满吞吐率,需要8333个RTT才能达到窗口的最佳值,这需要的一个保证就是在8333个RTT内一个包也不能丢失,否则就会引起窗口的减半,然后即使网络一直顺畅不发生拥塞,然而物理层的传输误码率也无法达到这个要求,也就是说在这个时期内肯定会有丢包发生的。HSTCP就是要在这种情况下达到单连接的高吞吐率,至于为什么要指定说是单连接,相信大家都知道多线程下载时能够提升吞吐率。

2.在慢启动的时候就达到相当的高吞吐,也就是说需要改变TCP的慢启动算法。

3.在发生丢包拥塞后能够快速恢复再次达到高吞吐。

4.不能添加额外的负向反馈,比如说路由器的特殊支持。这个主要是指另一种TCP的拥塞控制方法,显式拥塞通知(ECN)。

5.不能要求接收方提供额外的负向反馈。

6.在中度丢包甚至高丢包环境下性能至少与标准TCP一样好。

7.与标准TCP兼容友好。友好性之前说过,这是一个协议设计中的重要方面。

为了达到上面的要求,我们来看看HSTCP提出的窗口增加和减小方法,先看拥塞控制中的两个公式:

Cwnd = cwnd+a(cwnd)/cwnd    ............................ (1)

Cwnd = (1-b(cwnd)) * cwnd   ............................  (2)

式(1)是拥塞避免时的窗口增长方式,式(2)是发生了丢包后的窗口下降方式,其中a,b为两个函数,cwnd为其自变量,在标准TCP中a(cwnd)=1,b(cwnd)=0.5,也就是加法增大,乘法减小,为了达到TCP的友好性,在窗口较低的情况下,也就是说非BDP的网络环境下,HSTCP采用的是和标准TCP相同的a和b,也就是一样的方式来保证两者之间的友好性。当BDP大时,也就是w较大时(HSTCP设定的临界值为38),采取新的a和b来达到高吞吐的要求:

a(w) = w^2 * p(w) * 2 * b(w)/(2-b(w)) ,其中p(w)是窗口为w时的丢包率

b(w) = (High_Decrease - 0.5) (log(w)-log(W)) / (log(W_1)-log(W)) + 0.5 

High_Decrease是最大的减小乘法因子,标准TCP取值为0.5,HSTCP取为0.1,W为低窗口的临界值,也就是38,W_1是窗口最大值,设为83000(为什么是83000?Floyd是通过10Gbps,100ms的网络下计算出来的窗口值,精确值是83333)。

通过分阶段,根据不同的网络环境下使用不同的TCP窗口增长和降低参数,HSTCP达到了高吞吐的要求。分阶段的思想后来在其他的TCP变种中也得到了应用。显然在cwnd取不同的值的时候,a和b的值都可以计算出来,在RFC3649的最后作者把a和b的取值都计算了出来,真正使用的时候直接查表即可,在Linux内核中可以看到(/net/ipv4/tcp_highspeed.c)一个定义好的数组保存的就是这个表,从代码中可以很好的理解HSTCP。

注:很多计算过程都省略了,推荐看的文档就是RFC3649,所有的数值和计算都说的比较清楚。

下一节:BI-TCP。

上面我们已经提到了HSTCP,它通过简单的修改标准TCP的增长方式,从而达到了高吞吐。方法很简单,但是缺点在于,它存在严重的RTT不公平性,RTT不公平性在标准TCP中也是存在的,但是HSTCP显然扩大了这个不公平性。RTT的不公平性指的是当有多条连接在同一个瓶颈带宽上跑时,如果这些连接的RTT不相等,那么这些TCP连接在该链路上分得的带宽也是不一样的。作为一个公平性的协议,是应该达到这一点的。从HSTCP可以很明显的看出,如果当前连接的cwnd比较大的话,那么它的增长速度也是越快。具体的理论计算下次继续,我们先看BIC-TCP的思想。

BIC-TCP由North Carolina State University的网络研究实验室提出,该算法在提出不久后就成为了当时Linux内核中的TCP默认拥塞算法,使用非常广泛,由此可见,该算法是有一定功底的,从长久的使用来看,确实不错,当然问题也有一些。

BIC-TCP的提出者们发现了TCP拥塞窗口调整的一个本质:那就是找到最适合当前网络的一个发送窗口,为了找到这个窗口值,TCP采取的方式是(拥塞避免阶段)每RTT加1,缓慢上升,丢包时下降一半,接着再来慢慢上升。BIC-TCP的提出者们看穿了事情的本质,其实这就是一个搜索的过程,而TCP的搜索方式类似于逐个遍历搜索方法,可以认为这个值是在1和一个比较大的数(large_window)之间,既然在这个区间内需要搜索一个最佳值,那么显然最好的方式就是二分搜索思想。

BIC-TCP就是基于这样一个二分思想的:当出现丢包的时候,说明最佳窗口值应该比这个值小,那么BIC就把此时的cwnd设置为max_win,把乘法减小后的值设置为min_win,然后BIC就开始在这两者之间执行二分思想--每次跳到max_win和min_win的中点。

总的思想就是这么简单,当然实现起来还有一定的细节需要考虑。如果max_win比较大的时候,那么把窗口调整到其乘法降低后的min_win和max_win的中点,其增长量可能比大,也就是说在一个RTT里面增长过多,这会造成传输上的抖动,因而BIC-TCP选取了另外取了两个参考值,称为Smax和Smin,如果中点和当前cwnd值的差大于Smax的话,那么cwnd就只增长Smax,如果没有发生丢包,那么就重新设置min_win为当前的cwnd值,如果丢包,那么设置max_win为当前的cwnd值。该过程一直如此下去,直到窗口增长值小于Smin,也就是说在这个时候max_win和min_win非常接近了,达到这种情况下,可以说明现在的网络环境变好,那么把cwnd设置为max_win。

如果窗口值超过了max_win,那么可以说明稳定状态下的窗口值应该比当前的窗口值要大,此时就需要搜索出新的max_win值,BIC-TCP进入一个称为“max probing”的阶段。在这个阶段,首先把max_win设置为一个非常大的值,然后BIC采取了一个类似慢启动策略,每个RTT后窗口值变为cwnd+1,cwnd+2,cwnd+4......cwnd+Smax,直到增长为Smax的时候再次进入二分阶段。

另外由于该增长方式在小带宽下显然不怎么奏效,BIC规定了如果当前窗口值小于low_window(该值在实现里面为14),那么就采用标准TCP的拥塞方式进行处理。 

BIC-TCP的具体实现可以参考内核代码/net/ipv4/tcp_bictcp.c,上面的一些常量值在里面均有定义,在论文里面有伪码实现,逻辑都非常清晰,同时如果想看BIC的公平性理论证明和测试结果的也可以参考论文。

网络拥塞控制(八) 外传之如何测量TCP的拥塞窗口

我们一直讲了许多种网络拥塞算法,这些一直都是理论上的算法,到底在实际中窗口的调整是怎么样的呢?对于一个连接来说,如何知道当前的拥塞窗口值是多少呢?

在Linux下,使用内核模块tcpprobe,可以得到TCP连接的参数,但是麻烦的是,该模块需要内核kprobes的支持,如果不怕麻烦的话,当然可以尝试下。我们希望的是能够不需要通过这么复杂的机制,就能够得到内核中TCP连接的参数。在翻遍了proc目录和内核的一些代码后,终于找到了我想要的方法:getsockopt()函数调用。

该选项是Linux平台所独有的,所以在很多书籍,包括《Unix网络编程》这种圣经级的书和Linux的man getsockopt手册中,都没有提到这个选项。

在内核的函数tcp_getsockopt的代码中,可以看到这个选项TCP_INFO,返回了几乎所有的参数,同时还有其他的许多参数可以得到一些其他的信息。具体每个参数的含义可以参考内核中的注释。

Code
 1 void read_cwnd(int tcp_socket)
 2{
 3    struct tcp_info info;
 4    int length = sizeof(struct tcp_info);
 5    
 6    if ( getsockopt( tcp_socket, SOL_TCP, TCP_INFO, (void *)&info, (socklen_t *)&length ) == 0 ) {
 7       printf("%u %u %u %u %u %u %u %u %u %u %u %u\n",
 8             info.tcpi_snd_cwnd,
 9             info.tcpi_snd_ssthresh,
10             info.tcpi_rcv_ssthresh,
11             info.tcpi_rtt,
12             info.tcpi_rttvar,
13             info.tcpi_unacked,
14             info.tcpi_sacked,
15             info.tcpi_lost,
16             info.tcpi_retrans,
17             info.tcpi_fackets,
18             info.tcpi_ca_state,
19             info.tcpi_reordering
20            );
21    }
22 }

  有了这个选项后,我们就不再停留在各种拥塞算法的理论层面上,就可以从实际中看到TCP的各种算法的优劣,比较有趣的内容就产生了。

网络拥塞控制(九) CUBIC

接上文,在BIC-TCP提出后不久,North Carolina State University的研究人员在根据BI-TCP的一些缺点后,再次提出了CUBIC的算法,CUBIC不仅仅是简单的对BIC-TCP存在问题的一些修正,它的整个算法都已经做了较大的调整。

先看下BIC-TCP的缺点:首先就是抢占性较强,BIC-TCP的增长函数在小链路带宽时延短的情况下比起标准的TCP来抢占性强,它在探测阶段相当于是重新启动一个慢启动算法,而TCP在处于稳定后窗口就是一直是线性增长的,不会再次执行慢启动的过程。其次,BIC-TCP的的窗口控制阶段分为binary search increase、max probing,然后还有Smax和Smin的区分,这几个值增加了算法上的实现难度,同时也对协议性能的分析模型增加了复杂度。

CUBIC在设计上简化了BIC-TCP的窗口调整算法,在BIC-TCP的窗口调整中会出现一个凹和凸(这里的凹和凸指的是数学意义上的凹和凸,凹函数/凸函数)的增长曲线,CUBIC使用了一个三次函数(即一个立方函数),在三次函数曲线中同样存在一个凹和凸的部分,该曲线形状和BIC-TCP的曲线图十分相似,于是该部分取代BIC-TCP的增长曲线。另外,CUBIC中最关键的点在于它的窗口增长函数仅仅取决于连续的两次拥塞事件的时间间隔值,从而窗口增长完全独立于网络的时延RTT,之前讲述过的HSTCP存在严重的RTT不公平性,而CUBIC的RTT独立性质使得CUBIC能够在多条共享瓶颈链路的TCP连接之间保持良好的RRTT公平性。

来看下具体细节:当某次拥塞事件发生时,Wmax设置为此时发生拥塞时的窗口值,然后把窗口进行乘法减小,乘法减小因子设为β,当从快速恢复阶段退出然后进入到拥塞避免阶段,此时CUBIC的窗口增长开始按照“凹”式增长曲线进行增长,该过程一直持续直到窗口再次增长到Wmax,紧接着,该函数转入“凸”式增长阶段。该方式的增长可以使得窗口一直维持在Wmax附近,从而可以达到网络带宽的高利用率和协议本身的稳定性。

 

窗口的增长函数如下:

W(t) = C * (t-K)+ Wmax, 其中C和β为常量。

t为当前时间距上一次窗口减小的时间差,而K就代表该函数从W增长到Wmax的时间周期, 。

当收到ACK后,CUBIC计算利用该算法计算下一个RTT内的窗口增长速度,即计算W(t+RTT),该值将作为cwnd的目标值,根据cwnd的大小,CUBIC将进入三种不同模式,如果cwnd会小于在标准TCP下经过上次拥塞之后的时刻t窗口将会达到的值(该值是通过标准TCP的窗口增长函数计算出来的),那么CUBIC就处于标准TCP模式,如果小于Wmax,那么位于凹阶段的,如果大于Wmax,那么处于凸阶段。

鉴于CUBIC比BIC-TCP更出色的表现,在Linux2.6.18版本后,CUBIC取代了BIC-TCP,成为缺省的TCP算法。

当然,CUBIC也有其缺点,比如在凸增长阶段的快速增长可能导致网络流量的突发性,从而造成一定的丢包。

内核代码请参考/net/ipv4/tcp_Cubic.c,详细理论证明和伪代码实现请参考论文

 

也是总结的时候了,写完了TCP的多个经典的拥塞算法,但是由于这方面的优化算法还有很多,没办法能够一一讲完,所以下面对其他的一些比较典型的也进行一个简单的介绍:

Fast TCP: Fast TCP由于后来没有对开源界做贡献了,因为作者本人自己创办了公司,把Fast TCP变成了商业产品,所以后续的学术研究就比较少了。Fast TCP是从TCP vegas的思想发展而来,利用网络延时进行拥塞判断。之前讨论过,基于延迟的算法是对整个网络的拥塞控制有好处的,但是和当前的基于丢包的算法来说两者不公平。所以估计作者后面也做了很多的改进。

ECN:显式拥塞通知,该算法的思想是想借助路由器,因为拥塞的状况中间的路由器是最清楚的,所以让路由器在发现有拥塞现象时在连接的TCP或者IP头里面打上拥塞的标记,让终端自己去根据标记进行处理。这种思想需要中间所有的路由设备均能支持才能在整个广域网上使用起来,所以推广起来不是那么容易的事情。目前Win7、Linux均都已支持ECN标记的处理。

UDT:UDT是一个开源的基于UDP实现的可靠传输协议,对于想知道如何去实现一个可靠的传输协议可以说值得参考。严格地来说UDT没有对TCP进行优化,不能算是一种TCP的优化,但是在UDT里面实现的拥塞算法是和UDP或TCP没有关系的,UDT采用的是一种带宽估计的算法,在利用包对进行带宽的探测,然后由接收方把估计的带宽反馈到发送端,发送端的拥塞算法就是把拥塞窗口利用一个函数无限逼近于带宽值,这种思想对于传输的稳定性非常好,因为是一个无限逼近,所以永远不会超过带宽的值,而不是像TCP一样在平衡状态后继续一直往上增大窗口,从而在平衡状态能够维持比较久。但是缺点也显而易见,带宽的估计不是特别的精确,尤其是在小带宽环境和有丢包的环境下误差有点大,当然我们需要明白作者开发UDT的需求不是为了小带宽和丢包环境的。

 

很多人都会有一个初步印象就是实现一个类TCP看上去都会是一件很容易的事,不就是加上连接机制,重传机制,定时器机制,序列化机制等就可以保证TCP能够工作了,download点开源的各种实现或者Linux内核,很快就可以改造出一个自己可用的版本出来。没错,一个可用的TCP实现确实就这样完成了,但是一个可用的版本和一个高性能版本的TCP实现那差别就远的很了。该系列的文章已经从TCP的发展进行了描述过逐步引发的一些问题,下面再列举一些问题来说明:

1. 对各种网络环境的适应能力。现在的各种网络环境都存在不一样的特征,例如有高达Gbps的网络需要超大的传输能力,家用ADSL的小带宽需要保持稳定吞吐能力,卫星网络/跨国网络有着很大的延时和一定的丢包率,3G存在异构的网络,跨运营商的网络有着很大的丢包率(主要是在中国的跨运营商之间),等等,这些不同的网络环境对TCP算法的挑战性非常大。

2. 对不同应用的适应能力。有数据备份应用需要大量的文件传输,有对交互延时非常敏感的如RDP/Citrix/网游等应用,有一直只发送小包(发送的包长度小于MSS)的应用,也有不停的发送大包的应用,还有两边同时发送和接收数据的应用。而一旦实现的不好,就有可能对某些传输应用效果很好,但是对某种特殊的应用就很差,例如TCP的Nagle算法,ACK回复机制,如何控制突发性,重传算法等。曾经我就碰到过很多这种问题,因为多传输了一个包导致多回复了一个ACK,最终造成性能下降1/3,因为突发(尤其是重传时的突发)没有控制好导致500-600KB的带宽却也只能达到100KB的性能。

3. 对连接的友好型和抢占性。1条TCP连接是否能够有利用完整个带宽的能力,同时上万条连接并发是否有能够足够公平友好,从而充分利用带宽,而不是造成带宽的浪费?否则某些连接速度是快了,但是其他的连接速度就降下来了。同时抢占过重导致网络中延迟变大,从而交互性应用体验性非常不好。

上述这些问题,把TCP各种机制融合成为了一个整体,任何地方一个小小的改动可能会造成整体性能急剧的下降,测试的工作量也是一个非常复杂的工程。为了解决这些问题,对于TCP的优化的算法已经多达二十多种,包括公开的、私有的或者专利化的,在维基百科上都可以看到这些算法的列表

要解决上述各种问题,已经不是简单的拥塞控制对拥塞窗口进行调整可以解决的,需要结合很多其他的方面的信息,例如:

1. 最重要的是要提高重传数据的准确度且尽快地重传已经丢失的包,这两者看上去本身有点矛盾,因为要尽快地重传就有可能造成误判,错误的重传反而浪费原本宝贵的带宽资源。我尝试过给在丢包环境下每个包都直接重传两遍,这样相当于非常早的进行了重传,但是效果却还不如判断后再重传。

2. 发送数据的平稳性,很多小带宽的网络不能突然间发送过多的数据包,否则很快就会把网络再次陷入拥塞,导致速度比小流量的稳定发送更慢,控制这个发送的突发性值得考虑。

3. 如何判断当前已经达到了最佳值,否则最佳值之后上涨过快可能又会导致网络进入拥塞从而降低吞吐,实际上BICTCP/CUBIC在稳定后的增长速度都是比较快的,否则就又没办法达到高BDP网络的吞吐,所以利用网络带宽估计是一个比较靠谱的反馈,也有不少论文涉及到此方法,实际使用如UDT。

posted @ 2015-11-01 16:11  繁星jemini  阅读(565)  评论(0编辑  收藏  举报