千万级数据多条件联合查询优化
背景
某表内包含千万条记录, 现需要按照多条件进行筛选, SQL如下
SELECT * FROM t_table WHERE 1 = 1
AND Condition1
AND Condition2
AND Condition3
AND Condition4
AND Condition5
AND Condition6
...
AND ConditionN
ORDER BY ...
DESC ...
LIMIT ..., ...;
其中每个条件ConditionX
又是表中字段的操作集合.
如果按照普通查询方式, 必然造成慢SQL.
对策
上述SQL等价于
SELECT * FROM t_table WHERE 1 = 1
AND !(!Condition1)
AND !(!Condition2)
AND !(!Condition3)
AND !(!Condition4)
AND !(!Condition5)
AND !(!Condition6)
...
AND !(!ConditionN)
ORDER BY ...
DESC ...
LIMIT ..., ...;
即要求所有反条件!ConditionX
都为假, 也即某条记录只要任一!ConditionX
为真, 就不包含在结果集里.
因此考虑分表, 维护一张新表t_table_condition
, 包含原表t_table
的主键和其反条件值!ConditionX
, 查询时只需从新表里查!ConditionX<>0
即可.
这样好处在于将单次复杂query的耗时均摊到每次insert里.
拓展
新表t_table_condition
的反条件值!ConditionX
应该表示多种状态的可能组合, 为了节省空间, 使用二进制压缩的思想, 如!ConditionX = 1010
表示此记录的第二种和第四种条件组合为假
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现