倒排索引优化 - 跳表
在前面一篇介绍 倒排索引 的文章中我们知道, 两个关键字的合并操作的时候复杂度是 θ(N), 如果在合并操作时遇到最极端的情况, 所扫描和比较的次数是两个列表集合的所有元素个数之和, 即是线性增长的, 这在数据量特别大的时候是很低效的. 我们还是看一下两个集合的合并操作代码示例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | a = [ 1 , 2 , 3 , 6 , 9 , 11 , 45 , 67 ] b = [ 4 , 6 , 13 , 45 , 69 , 98 ] i = j = 0 result = [] while i < len (a) and j < len (b): if a[i] = = b[j]: result.append(a[i]) i = i + 1 j = j + 1 elif a[i] < b[j]: i = i + 1 else : j = j + 1 print result # 输出 [ 6 , 45 ] |
如果待合并的两个倒排表数据量很大, 但是交集很少时, 会是什么情况呢?
1 2 | [ 1 , 2 , 3 , 4 , 5 , ... 10001 , 10005 ] [ 1 , 10001 , 10008 ] |
如果对这两个做合并操作, 最后的交集结果只有 [1, 10001] 2个元素, 但是却要做10001次移动和比较操作, 所以肯定有什么办法来优化这一点. 可能你已经想到了, 我们做了这么多无用比较, 是因为我们每次指针向前移动的步子太小了点, 如果我们在每次比较后向前多移动一点, 可以忽略很比无用的操作. 这就是跳表的思想.
我们看第一个倒排表, 如果它以5000为步长前进, 进我们只需要向前查找两个即可找到我们需要的元素: 10001 . 这里写一个跳表功能的合并算法代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 | a = range ( 10008 ) b = [ 1 , 10001 , 10008 ] i = j = 0 result = [] step = 100 count = 0 while i < len (a) and j < len (b): if a[i] = = b[j]: result.append(a[i]) i = i + 1 j = j + 1 count = count + 1 elif a[i] < b[j]: while (i + step < len (a)) and a[i + step] < = b[j]: i = i + step count = count + 1 else : i = i + 1 count = count + 1 else : while (j + step < len (b)) and b[j + step] < = a[i]: j = j + 5000 count = count + 1 else : j = j + 1 count = count + 1 print result print count a = range ( 10008 ) b = [ 1 , 10001 , 10008 ] count = 0 i = j = 0 result = [] while i < len (a) and j < len (b): if a[i] = = b[j]: result.append(a[i]) i = i + 1 j = j + 1 count = count + 1 elif a[i] < b[j]: i = i + 1 count = count + 1 else : j = j + 1 count = count + 1 print result print count |
上面代码中故意构造了一个很大的集合 [0 ... 10007], 然后用变量count作为计数器来分析两个算法分别执行的操作次数, 可以看到采用跳表算法时(我们模拟了step=100)的计算次数是207, 而用之前的方式计算次数是10008, 可见性能提升了很多倍.
这里有几点说明下:
1. 这里为了简单说明跳表的思路, 全部用了数组表示倒排表, 其实真实的数据结构应该是链表结构(linked list). 这才符合磁盘存储结构.
2. 跳表的原始结构算法比这个复杂, 而且根据场景的不同, 跳表有不同的实现. 这里因为不是利用跳表的快速查询功能, 所以没有多级指针索引概念, 详细跳表实现查考: skip list
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· ASP.NET Core 模型验证消息的本地化新姿势
· 从零开始开发一个 MCP Server!
· ThreeJs-16智慧城市项目(重磅以及未来发展ai)
· .NET 原生驾驭 AI 新基建实战系列(一):向量数据库的应用与畅想
· Ai满嘴顺口溜,想考研?浪费我几个小时
· Browser-use 详细介绍&使用文档