TCP KEEPALIVE以获得更好的POSTGRESQL体验
一、数据库连接断开的原因
连接断开的可能原因有多种:
1、数据库服务器崩溃
如果服务器由于某种原因崩溃,要调查服务器是否存在问题,您应该首先查看 PostgreSQL 日志,看看是否可以找到匹配的崩溃报告。
2、客户端放弃的连接
如果客户端在没有正确关闭数据库连接的情况下退出,服务器在网络套接字上通信时将收到文件结束或错误。通过v14 中引入的新会话统计信息,您可以跟踪 中此类“废弃”数据库连接的数量pg_stat_database.sessions_abandoned
。
例如,如果应用程序服务器发生故障并重新启动,它通常不会关闭与数据库服务器的连接。这并不令人担忧,当服务器尝试向客户端发送
数据时,数据库服务器会很快检测到它。但如果数据库会话空闲,服务器进程正在等待客户端发送下一条语句(可以看到pg_stat_activity
的wait_event
)。那么服务器不会立即注意到客户端不再存在!这种挥之不去的后端进程会占用一个进程槽,并可能导致您超出
max_connections
。
PostgreSQL v14 引入了一个新参数idle_session_timeout
,该参数会在一段时间后关闭空闲连接。但这也会终止“健康”的空闲连接,
因此这不是一个很好的解决方案。TCP keepalive 为这个问题提供了更好的解决方案。
3、网络组件关闭的连接
有时,数据库连接的两端都会遇到相同的问题:每一端都看到另一端“挂断了它们”。在这种情况下,问题出在数据库客户端和服务器之
间。
如果确实存在连接问题,网络连接可能会断开。在软件层面上你无法改变这一点。但很多时候,断开连接是由防火墙或路由器的配置方式
引起的。网络组件可能必须“记住”每个打开连接的状态,而其资源是有限的。因此,“忘记”并删除闲置较长时间的连接似乎是权宜之计。
由于当今的许多 TCP 流量都是通过 HTTP 进行的,并且 HTTP 是无状态的,因此这通常不是问题。如果您的 HTTP 连接断开,您只需为下
一个请求建立一个新连接,这并不是很昂贵。但数据库不同:
- 建立数据库连接的成本很高
- 数据库连接不是无状态的;例如,通过关闭连接,您会丢失打开的事务、临时表和准备好的语句
- 数据库会话空闲较长时间是正常的,例如,如果您正在使用连接池,或者当客户端正在等待长时间运行的分析查询的结果时
这就是TCP持久连接发挥作用的地方,它可以用来保持空闲连接打开。
二、TCP keepalive
Keepalive 是 TCP 协议的一项功能。当您在 TCP 网络套接字上设置该SO_KEEPALIVE
选项时,一旦套接字空闲,计时器就会开始运行。当
保活空闲时间到期且套接字上没有进一步活动时,内核将向通信对方发送“保活数据包”。如果对方应答,则认为连接良好,并且计时器再
次开始运行。
如果没有应答,内核在发送另一个持久连接分组之前,会等待持久连接间隔时间。此过程重复进行,直到发送的keepalive报文数量达到
keepalive计数。之后,该连接被视为死亡连接,试图使用该网络套接字将导致错误。
注意,发送keepalive消息的是操作系统内核,而不是应用程序(数据库服务器或客户端)。应用程序不知道这个过程。
TCP keepalive 有两个目的:
防止网络连接处于空闲状态
检测通信的另一端是否离开而没有关闭网络连接
三、使用 TCP keepalive 使空闲数据库会话保持活动状态
为了防止防火墙和路由器关闭空闲连接,我们需要为持久连接空闲时间设置一个低得多的值。然后在连接关闭之前发送keepalive报文。
即使数据库客户端和服务器都没有发送任何数据,这也会让出错的网络组件相信连接没有空闲。
对于这种情况,keepalive计数和keepalive间隔是不相关的。我们所需要的就是让第一个keepalive数据包足够早地发送。
四、使用 TCP keepalive 检测死连接
对于这种情况,减少持久连接空闲时间通常是不够的。如果服务器以75秒的间隔发送9个keepalive报文,则需要超过10分钟才能检测到死
连接。所以我们也会减少keepalive计数,或者keepalive间隔,或者两者都减少——就像在这个例子中一样。
还有一个问题没有解决:即使操作系统检测到网络连接中断,数据库服务器也不会注意到,除非它尝试使用网络套接字。如果它正在等待
客户端的请求,请求会立即执行。但是如果服务器忙于执行一个长时间运行的SQL语句,它不会注意到死亡连接,直到查询完成并尝试将
结果返回给客户端!为了防止这种情况发生,PostgreSQL v14引入了新的参数client_connection_check_interval
,该参数目前只在
Linux上支持。设置此参数会导致服务器定期“轮询”套接字,即使它还没有要发送的内容。这样,它可以检测到关闭的连接并中断SQL语句
的执行。