千万级数据多条件联合查询优化

背景

某表内包含千万条记录, 现需要按照多条件进行筛选, SQL如下

SELECT * FROM t_table WHERE 1 = 1
AND Condition1
AND Condition2
AND Condition3
AND Condition4
AND Condition5
AND Condition6
...
AND ConditionN
ORDER BY ...
DESC ...
LIMIT ..., ...;

其中每个条件ConditionX又是表中字段的操作集合.
如果按照普通查询方式, 必然造成慢SQL.

对策

上述SQL等价于

SELECT * FROM t_table WHERE 1 = 1
AND !(!Condition1)
AND !(!Condition2)
AND !(!Condition3)
AND !(!Condition4)
AND !(!Condition5)
AND !(!Condition6)
...
AND !(!ConditionN)
ORDER BY ...
DESC ...
LIMIT ..., ...;

即要求所有反条件!ConditionX都为假, 也即某条记录只要任一!ConditionX为真, 就不包含在结果集里.

因此考虑分表, 维护一张新表t_table_condition, 包含原表t_table的主键和其反条件值!ConditionX, 查询时只需从新表里查!ConditionX<>0即可.

这样好处在于将单次复杂query的耗时均摊到每次insert里.

拓展

新表t_table_condition的反条件值!ConditionX应该表示多种状态的可能组合, 为了节省空间, 使用二进制压缩的思想, 如!ConditionX = 1010表示此记录的第二种和第四种条件组合为假

posted @ 2022-08-20 19:23 Blazer96 阅读(256) 评论(0) 收藏举报

刷新页面返回顶部

rellik96

千万级数据多条件联合查询优化

背景

对策

拓展

公告