TCP系列53—拥塞控制—16、Destination Metrics和Congestion Manager
一、概述
我们之前介绍过rtt、ssthresh等变量,这些变量一般在TCP连接建立的时候有个初始值,然后随着TCP的数据交互逐渐调整到适应对应的网络状态的值。但是如果每次TCP建立连接都依靠默认初始值逐渐调整,那么可能需要一段时间才能调整到合适值,这显然会降低TCP性能,对于这种场景一种优化方案就是destination metrics。
RFC2140中描述,如果新建立的连接从已经关闭的连接缓存的状态信息中获取初始化信息,称呼为temporal sharing,如果新建立的连接从其他已建立的TCP连接获取初始化信息称为ensemble sharing。linux中实现的是temporal sharing。RFC3124中提出一个Congestion Manager,congestion manager是一个操作系统服务,TCP连接可以从这个服务中获取连接相关信息。同样linux也是使用destination metrics来实现的Congestion Manager。
二、Linux实现简介
destination metrics是指TCP根据用户预设的一些值或者之前TCP连接缓存的一些值来初始化相关的状态变量。也就是说destination metric其实可以分为两部分,一部分是用户预设的值,另外一部分则是之前TCP连接缓存缓存的值,后面这一部分也称为TCP metrics。显然一个TCP连接的网络状态(如RTT时延、拥塞窗口cwnd)只与目的IP地址强相关,而与传输层的端口并无太大关系。TCP metric就是以IP地址来缓存的,每个IP地址对应一个缓存条目。一般来说,当TCP连接建立的时候,如果要初始化一个对应的状态变量,首先会查询TCP metrics缓存中是否存在目标地址的metric,如果存在则根据metric信息来初始化连接的参数,如果不存在则会在TCP metrics缓存中创建对应这个IP地址的TCP metric,创建的时候还会根据destination metrics的设置来初始化tcp metrics。TCP连接在关闭的时候也会尝试把最新的连接状态信息写入到TCP metrics缓存中。
上面说了这么多废话,那么linux中到底有那些置destination metrics、tcp metrics呢?首先我们说一下destination metrics包含那些状态信息,与TCP关系比较大的几个有mtu、 window、 rtt、 rttvar、 rto_min、 ssthresh、 cwnd、 initcwnd、 initrwnd、 quickack、 reordering、congctl、 advmss,其中标识为红色的5个即为TCP metrics。我们在之前的文章中已经演示过mtu、 ssthresh、 initcwnd、 quickack、 congctl、window等destination metrics的设置和影响。这些参数的详细解释请查阅man ip-route和man ip-tcp_metrics。其中需要注意的cwnd这个metric,这个值表示TCP连接拥塞窗口cwnd的上限,而不是拥塞窗口的初始值,metric中的cwnd改名为cwnd_clamp,显然更合适一些,另外就是这个metric的设置需要加lock关键字才生效。另外内核目前并不会根据rttvar来初始化状态变量了。
下面我们说一下设置destination metrics时候,加不加lock的关系,其中rtt、rttvar、ssthresh、cwnd、reordering这5个TCP metrics可以在设置的时候添加lock关键字,TCP连接在初始建立时候如果没有对应目标IP地址的TCP metric,则会根据设置值来初始化对应这条IP 地址的TCP metric,如果添加了lock关键字,那么随后这个TCP连接关闭的时候就不会更新对应的metric,如果没有添加lock字段,并且tcp_no_metrics_save参数为0,那么就会根据当前状态来更新TCP metric缓存。
最后说一下,使用ip route设置的destination metrics并不是立即生效的,上面我们说了TCP连接建立的时候会先从TCP metrics缓存中初始化连接相关的状态信息,如果没有TCP metric缓存才会从ip route设置中读取参数配置来建立TCP metrics。也就是说destination metrics为TCP metrics提供了初始值,一旦缓存中的TCP metric有效,就不会ip route设置的destination metric来初始化TCP连接了。那么TCP metric什么时候会失效呢?如果读取TCP metric缓存的时候发现距离上次更新这条IP地址的metric时间超过一小时,那么这个TCP metric就无效了,就需要从destination metric来重新初始化TCP metric。
三、示例
下面我们通过示例来看一下destination metric和tcp metric的常见操作及相关特性
#通过ip route add命令可以添加路由,然后针对这条路由的目标地址设置destination metrics
****@Inspiron:****/04_cc/tcp17# ip route add local 127.0.0.2 dev lo congctl reno initcwnd 5 ssthresh lock 4
#设置后查看一下相关信息
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
#下面一行对应 ip route show table all | grep 127.0.0.2 该命令可以查看destination metrics设置
local 127.0.0.2 dev lo table local scope host ssthresh lock 50 cwnd lock 9 initcwnd 5 congctl reno
#下面一行对应命令 ss -i sport = 9877 查看源端口为9877 的tcp连接信息
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#下面一行对应 ip tcp_metrics show 127.0.0.2 该命令可以查看tcp metrics设置,此时我们虽然设置了destination metric,但是因为
#还没有建立到127.0.0.2的tcp连接,因而还没有tcp metric信息
RTNETLINK answers: No such process
#启动server server端在与client建立连接后会休眠30ms 然后连续发送15个数据包 每个数据包的大小为50bytes,发送间隔为3ms
#数据包发送完后休眠30s,然后关闭与client的连接
****@Inspiron:****/04_cc/tcp17# ./server.out &
[1] 24091
#client建立与server端的tcp连接,client对于每个收到的数据包都会回复一个ACK确认包
****@Inspiron:****/04_cc/tcp17# ./client.out > rst_client &
[2] 24093
****@Inspiron:****/04_cc/tcp17#
conn setup sleep 30s
#上面一行是server端打印,提示已经与client建立连接,开始休眠30s,此时我们再次查看信息
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
#可以看到路由表中的destination metric的设置值是静态不变的
local 127.0.0.2 dev lo table local scope host ssthresh lock 50 cwnd lock 9 initcwnd 5 congctl reno
#现在可以查看到server端与client端的连接了 注意路由表中设置了ssthresh lock 50,但是下面的连接信息告诉我们server端ssthresh=9,原因就是路由表中设置了cwnd lock 9,cwnd这个metric生效的时候,TCP连接会设置ssthresh=min(ssthresh,cwnd)=9
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.258/25.129 mss:50 cwnd:5 ssthresh:9 segs_in:2 send 39.8Kbps lastsnd:6064456 lastack:6064456 pacing_rate 47.8Kbps rcv_space:43690
#可以看到在新建立TCP连接后,就会初始化一个tcp metric,初始值来自路由表中静态的destination metric
127.0.0.2 age 4.760sec ssthresh 50 cwnd 9 source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
****@Inspiron:****/04_cc/tcp17#
server send start
server send end sleep 30s
#server端发送数据后再次查看相关信息
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh lock 50 cwnd lock 9 initcwnd 5 congctl reno
#由于路由表中设置cwnd lock 9,限制了拥塞窗口最大值只能到9,注意路由表中的cwnd限制的是拥塞窗口的最大值,从下面连接信息可以看到cwnd=9
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.271/0.392 mss:50 cwnd:9 ssthresh:9 bytes_acked:750 segs_out:15 segs_in:17 send 71.6Kbps lastsnd:6094556 lastack:6094604 pacing_rate 85.9Kbps rcv_space:43690
#从下面的age可以看到server端并没有更新tcp metrics
127.0.0.2 age 39.528sec ssthresh 50 cwnd 9 source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server sockfd close
[2]+ 已完成 ./client.out > rst_client
#server端连接关闭,再次查看相关信息
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh lock 50 cwnd lock 9 initcwnd 5 congctl reno
#已经查不到源端口为9877的tcp连接
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#可以从age信息里面看到tcp 连接关闭的时候更新了tcp metric,但是可以看到ssthresh和cwnd的值并没有更新这个就是lock的作用,
#被lock的tcp metric是不会被tcp连接更新的 另外可以看到rtt和rttvar这两个metric发生了更新,但是reordering并没有更新,也就是说TCP
#连接关闭的时候还要检测当前状态的有效性来决定是否更新相关的metric。
127.0.0.2 age 6.116sec ssthresh 50 cwnd 9 rtt 50281us rttvar 50281us source 127.0.0.1
#接下来我们更新路由表destination metric的cwnd和ssthresh两个metrics
****@Inspiron:****/04_cc/tcp17# ip route change local 127.0.0.2 dev lo initcwnd 5 cwnd lock 8 ssthresh lock 40 congctl reno
****@Inspiron:****/04_cc/tcp17# ./client.out > rst_client &
[2] 24190
****@Inspiron:****/04_cc/tcp17#
conn setup sleep 30s
#重新进行测试 连接建立
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh lock 40 cwnd lock 8 initcwnd 5 congctl reno
#从下面的连接信息中的ssthresh值可以看到,路由表中的设置并没有生效,连接建立的时候是从tcp metrics中读取的连接缓存信息
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:248 rtt:50.225/25.112 mss:50 cwnd:5 ssthresh:9 segs_in:2 send 39.8Kbps lastsnd:6393360 lastack:6393360 pacing_rate 47.8Kbps rcv_space:43690
#可以看到此时的tcp metric中cwnd和ssthresh并没有从destination中更新,原因就是上面说的
#只有TCP metrics过期后或者初始建立时候才会从destination metric更新
127.0.0.2 age 273.460sec ssthresh 50 cwnd 9 rtt 50281us rttvar 50281us source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server send start
server send end sleep 30s
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh lock 40 cwnd lock 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.306/0.377 mss:50 cwnd:9 ssthresh:9 bytes_acked:750 segs_out:15 segs_in:17 send 71.6Kbps lastsnd:6423460 lastack:6423508 pacing_rate 85.9Kbps rcv_space:43690
127.0.0.2 age 303.164sec ssthresh 50 cwnd 9 rtt 50281us rttvar 50281us source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server sockfd close
[2]+ 已完成 ./client.out > rst_client
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh lock 40 cwnd lock 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#连接关闭后 再次更新了tcp metrics 这一点可以从age看到 也可以从rtt、rttvar中看到
127.0.0.2 age 4.800sec ssthresh 50 cwnd 9 rtt 50312us rttvar 37785us source 127.0.0.1
#接下来我们看一下不填加lock关键字的效果
****@Inspiron:****/04_cc/tcp17# ip route change local 127.0.0.2 dev lo initcwnd 5 cwnd 8 ssthresh 40 congctl reno
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
127.0.0.2 age 91.740sec ssthresh 50 cwnd 9 rtt 50312us rttvar 37785us source 127.0.0.1
#为了让路由表中的destination metric生效,需要使用下面的命令从tcp metrics中删除127.0.0.2对应的缓存信息
****@Inspiron:****/04_cc/tcp17# ip tcp_metrics flush 127.0.0.2
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#可以看到TCP metrics中已经没有对应127.0.0.2的缓存了
RTNETLINK answers: No such process
****@Inspiron:****/04_cc/tcp17# ./client.out > rst_client &[2] 24265
****@Inspiron:****/04_cc/tcp17#
conn setup sleep 30s
#client再次建立连接 进行新的测试
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
#从下面的连接信息中可以看到,cwnd虽然设置了 但是并没有限制到server端的拥塞窗口,因为如果cwnd这个metric设置生效的话,那么ssthresh应为8
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.243/25.121 mss:50 cwnd:5 ssthresh:40 segs_in:2 send 39.8Kbps lastsnd:6574128 lastack:6574128 pacing_rate 79.6Kbps rcv_space:43690
#连接建立后创建新的tcp metric,可以看到其中的初始值来自与路由表中destination metrics设置
127.0.0.2 age 2.980sec ssthresh 40 cwnd 8 source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server send start
server send end sleep 30s
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
#server端发送数据后,可以看到cwnd已经增长到了20,超越了路由表中cwnd的设置。说明没有添加lock关键字的cwnd metric并没有生效
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.273/0.372 mss:50 cwnd:20 ssthresh:40 bytes_acked:750 segs_out:15 segs_in:17 send 159.1Kbps lastsnd:6604192 lastack:6604244 pacing_rate 191.0Kbps rcv_space:43690
127.0.0.2 age 34.248sec ssthresh 40 cwnd 8 source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server sockfd close
[2]+ 已完成 ./client.out > rst_client
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#因为路由表中的cwnd metric没有lock,因此连接关闭的时候会更新cwnd,实际上更新了也没用,因为新的tcp连接并不会使用
127.0.0.2 age 3.064sec ssthresh 40 cwnd 24 rtt 50275us rttvar 50275us source 127.0.0.1
#接着进行新的测试,下面命令指示client丢掉第8个数据包 造成server端快速重传,从而更新ssthresh
****@Inspiron:****/04_cc/tcp17# ./client.out 8 >rst_client &
[2] 24606
****@Inspiron:****/04_cc/tcp17#
conn setup sleep 30s
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
#新建立连接的拥塞窗口cwnd始终从路由表中的initcwnd初始化 而不是从tcp metric或者destination metric中的cwnd metric更新,
#再说一次 cwnd这个metric限制的是拥塞窗口的最大值,而且只有在加lock关键字设置后才会生效
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:50.287/25.143 mss:50 cwnd:5 ssthresh:40 segs_in:2 send 39.8Kbps lastsnd:7230928 lastack:7230928 pacing_rate 79.5Kbps rcv_space:43690
127.0.0.2 age 601.280sec ssthresh 40 cwnd 24 rtt 50275us rttvar 50275us source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server send start
server send end sleep 30s
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
#快速重传及快速恢复后,cwnd=7,ssthresh=6
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
tcp ESTAB 0 0 127.0.0.1:9877 127.0.0.2:webmin
reno wscale:0,7 rto:252 rtt:49.999/0.534 mss:50 cwnd:7 ssthresh:6 bytes_acked:750 segs_out:16 segs_in:17 send 56.0Kbps lastsnd:7261040 lastack:7261088 pacing_rate 67.2Kbps retrans:0/1 rcv_space:43690
127.0.0.2 age 630.636sec ssthresh 40 cwnd 24 rtt 50275us rttvar 50275us source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
server sockfd close
[2]+ 已完成 ./client.out 8 > rst_client
****@Inspiron:****/04_cc/tcp17# ip route show table all | grep 127.0.0.2; ss -i sport = 9877;ip tcp_metrics show 127.0.0.2
local 127.0.0.2 dev lo table local scope host ssthresh 40 cwnd 8 initcwnd 5 congctl reno
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port
#连接关闭后 可以看到cwnd和ssthresh都已经更新了
127.0.0.2 age 4.996sec ssthresh 6 cwnd 15 rtt 50244us rttvar 37823us source 127.0.0.1
****@Inspiron:****/04_cc/tcp17#
补充说明:
1、实际在TCP metrics中有7个参数,但是有两个是冗余的,主要是为了接口兼容保留下来的,参考kernel修改https://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/commit/?id=740b0f1841f6e39085b711d41db9ffb07198682b&dt=1,Iproute2配套修改 https://patchwork.ozlabs.org/patch/386544/,Iproute2即为ss命令的程序包,Iproute2还包含其他的一些命令,用来取代net-tools程序包,net-tools程序包就是netstat/ip等程序所在的软件包。
2、TCP metrics枚举tcp_metric_index、TCP_METRICS_ATTR_UNSPEC,destination metric枚举RTAX_UNSPEC
3、连接建立时候更新metric信息初始化连接状态变量tcp_init_metrics,连接关闭时候更新tcp metrics代码点tcp_update_metrics
4、显然TCPIP详解中对于destination metric中,cwnd的解释也是错误的了。