session一致性架构设计
什么是session?
由于HTTP协议是无状态的协议,因此它不会去记住上一次浏览器访问服务器时的信息。同一个用户的两次操作,与两个不同用户的操作,对它来说是一样的。 这样虽然满足了互联网web应用的海量访问的需求,但是对于现今类似电商的应用来说,是需要实现登录以及身份验证需求的,但是无状态的HTTP显然是做不到的,这样才出现了session。
Web服务器为每个用户创建一个会话,存储用户的相关信息,以便多次请求能够定位到同一个上下文。
web-server可以自动为每一个浏览器访问的用户自动创建session,提供数据存储功能。最常见的,会把用户的登录信息、用户信息存储在session中,以保持持续登录状态。
什么是session一致性问题?
每次http短连接请求,理论上服务端都能定位到session,保持会话状态。
当应用只有一台web-server提供服务时,每次浏览器发送http请求,都能够正确路由到存储session的对应web-server(因为只有一台)。
此时的web-server是无法保证高可用的,因此如果我们采用Nginx反向代理,然后加上web-server “冗余+故障转移”的方案,用多台web-server来保证高可用时,每次http短连接请求就不一定能路由到正确的session了。
比如第一次用户登录的时候,Nginx路由到 web-server1,且在web-server1上创建了session,当第二次访问时,Nginx路由到了web-server2上。此时web-server2上是没有用户的登录信息的,那么就会导致用户需要重新登录,这样用户体验肯定是不好的。
那么如何保证分布式系统的session路由一致性呢?
一、session同步法
这个方案的思路就是,多个web-server之间相互同步session,这样每个web-server之间都包含全部的session。
优点:应用程序不需要修改代码。
不足:
-
session的同步需要数据传输,占内网带宽,有时延
-
所有web-server都包含所有session数据,数据量受内存限制,无法水平扩展。
二、客户端存储法
这个方案的思路就是,服务端存储所有用户的session的话内存占用较大,可以将session存储到浏览器cookie中,每个端只要存储一个用户的数据了。
优点:服务端不需要存储。
缺点:
-
每次http请求都携带session,占外网带宽
-
数据存储在端上,并在网络传输,存在泄漏、篡改、窃取等安全隐患
-
session存储的数据大小受cookie限制
“端存储”的方案虽然不常用,但确实是一种思路。
三、反向代理hash一致性
这个方案的思路就是,在反向代理层做点文章,让同一个用户的请求保证落在一台web-server上。
我们可以在反向代理层使用用户ip来做hash,以保证同一个ip的请求落在同一个web-server上。
优点:
-
只需要改nginx配置,不需要修改应用代码
-
负载均衡,只要hash属性是均匀的,多台web-server的负载是均衡的
-
可以支持web-server水平扩展
不足:
-
如果web-server重启,一部分session会丢失,例如部分用户重新登录
-
如果web-server水平扩展,rehash后session重新分布,也会有一部分用户路由不到正确的session
四、后端统一存储法
思路就是,将session存储在web-server后端的存储层,数据库或者缓存。
优点:
-
没有安全隐患
-
可以水平扩展,数据库/缓存水平切分即可
-
web-server重启或者扩容都不会有session丢失
不足:增加了一次网络调用,并且需要修改应用代码。
对于db存储还是cache,个人推荐后者:session读取的频率会很高,数据库压力会比较大。如果有session高可用需求,cache可以做高可用,但大部分情况下session可以丢失,一般也不需要考虑高可用。
总结
保证session一致性的架构设计常见方法:
-
session同步法:多台web-server相互同步数据
-
客户端存储法:一个用户只存储自己的数据在cookie中。
-
反向代理hash一致性:保证一个用户的请求落在一台web-server上
-
后端统一存储:web-server重启和扩容,session也不会丢失
对于方案3和方案4,个人建议推荐后者:
-
web层、service层无状态是大规模分布式系统设计原则之一,session属于状态,不宜放在web层。