"过期不候"--具备生命周期的数据的技术实现方案
1 引言
本文可以作为之前的一个 原理性文章 对应的 技术实现部分 。
此处给出其上文的直达电梯:
http://www.cnblogs.com/beer/p/6029861.html
2 数据生命周期
所谓的 “数据生命周期” 是指:为数据设定一定的生存期限,过了这个时间后, 此数据就被删除掉(失效)。
在进行web开发的时候,有很多需求场景是要求数据是具有一定的生命周期,比如:
- 具有一定时效的用户登录会话
- 邀请码系统的时效控制
- 具有时效的二维码/短信/邮件验证系统
- 接口调用认证的token有效期
- 第三方授权的期限控制
- 分享内容的时效控制
- 记录一段时间的日志
本文将以如下两种数据库特性为例子来对此功能的实现进行介绍:
- mongodb
- redis
3 mongodb
3.1 实现方法
在mongodb中有个 TTL(Time To Live 生存时间)索引 功能:
TTL索引是一种特殊索引,通过这种索引 MongoDB 会过一段时间后自动移除集合中的文档。 这对于某些类型的信息来说是一个很理想的特性,例如: 机器生成的事件数据,日志,会话信息等,这些数据都只需要在数据库中保存有限时间。
- 如果你可以设定这个生命周期是多久他只要过了这段时间之后,它就会自动删除掉
- 删除的周期就是一分钟左右(和mongodb服务的负载有关),mongodb后台会进行周期性地检查这些索引字段
在 mongodb 中的实现方式:
db.ttl_log_session.createIndex( { "lastModifiedDate": 1 }, { expireAfterSeconds: 3600 } )
主要解释如下:
- 对 ttl_log_session 合集建立索引
- 索引字段为 lastModifiedDate
- 索引顺序是 升序
- 有效生存周期为 3600 秒
达到的效果:以 lastModifiedDate 时刻开始,经过 3600 秒之后,此文档会失效被删除掉。
3.2 过期时间精度
删除操作的一些注意事项:
- TTL索引 不能 保证过期数据会被立刻删除
-
在文档过期和MongoDB从数据库中删除文档之间,可能会有延迟。
- 删除过期数据的后台任务每隔60秒运行一次
-
在文档过期之后和后台任务运行或者结束之前,文档会依然存在于集合中(删除操作还没有完成)。
- 删除操作的持续实际取决于您的 mongod 实例的负载
-
在两次后台任务运行的间隔间,过期数据可能会继续留在数据库中超过60秒。
4 redis
redis是一个内存数据库,它具备快速IO的特点。在性能上会比Mongodb进行大幅度提升。
4.1 实现方式
通过如下方式:
EXPIRE key seconds
为给定的key设置生存时间,当key过期时(生存时间为0),它会被自动删除。
如下是一些设置生存时间相关的基本操作:
redis> SET cache_page "www.google.com" OK redis> EXPIRE cache_page 30 # 设置过期时间为 30 秒 (integer) 1 redis> TTL cache_page # 查看剩余生存时间 (integer) 23 redis> EXPIRE cache_page 30000 # 更新过期时间 (integer) 1 redis> TTL cache_page (integer) 29996
注意事项:
- 生存时间可以通过使用 DEL 命令来删除整个 key 来移除,或者被 SET 和 GETSET 命令覆写(overwrite)
- 如果使用 RENAME 对一个 key 进行改名,那么改名后的 key 的生存时间和改名前一样
- 将一个带生存时间的 key 改名成另一个带生存时间的 another_key ,这时旧的 another_key (以及它的生存时间)会被删除,然后旧的 key 会改名为 another_key
4.2 过期时间精度
- 在 Redis 2.4 版本中,过期时间的延迟在 1s 之内
-
就算key已经过期,但它还是可能在过期之后一秒钟之内被访问到
-
在新的 Redis 2.6 以后的版本中,延迟被降低到 1ms 之内
5 小结
在进行web开发过程中,很多场合都需要用到数据的生命周期的功能。 关于如何实现此功能时,可以参考如下结论后再进行相应的技术选型:
本文关于 "数据生命周期" 主题的主要结论如下:
- 可以通过在web应用层上面做一些定时任务,但是那样的效率远没有直接在数据库层做操作要效率高
- 内存数据库(Reids)在过期时间精度上面的控制要远比磁盘数据库(MongoDB)要强得多,可能达到6万倍
在进行技术选型时注意在如下几个特性上进行比较:
- IO速度
- 数据持久化
- 数据的备份和复制集
- 数据库对多核心的利用
- 数据库集群的部署的成本和难度
- 开发的成本和难度
最终能够得出合适自己的技术方案,实现自己系统的功能