【系统设计】基于位置的服务

在本文中，我们将设计一个邻近服务，用来发现用户附近的地方，比如餐馆，酒店，商场等。

设计要求

从一个小明去面试的故事开始。

面试官：你好，我想考察一下你的设计能力，如果让你设计一个邻近服务，用来搜索用户附近的商家，你会怎么做？

小明：好的，用户可以指定搜索半径吗？如果搜索范围内没有足够的商家，系统是否支持扩大搜索范围？

面试官：对，用户可以根据需要修改，大概有以下几个选项，0.5km，1km，2km，5km，10km，20km。

小明：嗯，还有其他的系统要求吗？

面试官：另外还需要考虑的是，系统的低延迟，高可用，和可扩展性，以及数据隐私。

小明：好的，了解了。

总结一下，需要做一个邻近服务，可以根据用户的位置（经度和纬度）以及搜索半径返回附近的商家，半径可以修改。因为用户的位置信息是敏感数据，我们可能需要遵守数据隐私保护法。

高层次设计

高层次设计图如下所示，系统包括两部分：基于位置的服务（location-based service）LBS 和业务（bussiness）相关的服务。

让我们来看看系统的每个组件。

负载均衡器

负载均衡器可以根据路由把流量分配给多个后端服务。

基于位置的服务 (LBS)

LBS 服务是系统的核心部分，通过位置和半径寻找附近的商家。LBS 具有以下特点：

没有写请求，但是有大量的查询
QPS 很高，尤其是在密集地区的高峰时段。
服务是无状态的，支持水平扩展。

Business 服务

商户创建，更新，删除商家信息，以及用户查看商家信息。

数据库集群

数据库集群可以使用主从配置，提升可用性和性能。数据首先保存到主数据库，然后复制到从库，主数据库处理所有的写入操作，多个从数据库用于读取操作。

接下来，我们具体讨论位置服务 LBS 的实现。

1. 二维搜索

这种方法简单，有效，根据用户的位置和搜索半径画一个圆，然后找到圆圈内的所有商家，如下所示。

商家的纬度用 latitude 表示，经度用 longitude 表示。同样的用户的纬度和经度可以用 user_latitude 和 user_longitude 表示，半径用 radius 表示。

上面的搜索过程可以翻译成下面的伪 SQL 。

SELECT business_id, latitude, longitude,
FROM business
WHERE 
latitude >= (@user_latitude - radius) AND latitude < (@user_latitude + radius)
AND
longitude >= (@user_longitude - radius) AND longitude < (@user_longitude + radius)

这种方式可以实现我们的需求，但是实际上效率不高，因为我们需要扫描整个表。虽然我们可以对经纬度创建索引，效率有提升，但是并不够，我们还需要对索引的结果计算取并集。

2. Geohash

我们上面说了，二维的经度和纬度做索引的效果并不明显。而 Geohash 可以把二维的经度和纬度转换为一维的字符串，通过算法，每增加一位就递归地把世界划分为越来越小的网格，让我们来看看它是如何实现的。

首先，把地球通过本初子午线和赤道分成四个象限，如下

纬度范围 [-90, 0] 用 0 表示
纬度范围 [0, 90] 用 1 表示
经度范围 [-180, 0] 用 0 表示
经度范围 [0, 180] 用 1 表示

然后，再把每个网格分成四个小网格。

重复这个过程，直到网格的大小符合我们的需求，Geohash 通常使用 base32 表示。让我们看两个例子。

Google 总部的 Geohash（长度为 6）：

1001 10110 01001 10000 11011 11010 (base32 convert) → 9q9hvu (base32)

Facebook 总部的 Geohash（长度为 6）：

1001 10110 01001 10001 10000 10111 (base32 convert) → 9q9jhr (base32)

Geohash 有 12 个精度（也称为级别）, 它可以控制每个网格的大小，字符串越长，拆分的网格就越小，如下

实际中，按照具体的场景选择合适的 Geohash 精度。

通过这种方式，最终把地图分成了下面一个个小的网格，一个 Geohash 字符串就表示了一个网格，这样查询每个网格内的商家信息，搜索是非常高效的。

可能你已经发现了一些规律，上图的每个网格中，它们都相同的前缀 wtw3。是的，Geohash 的特点是，两个网格的相同前缀部分越长，就表示它们的位置是邻近的。

反过来说，两个相邻的网格，它们的 Geohash 字符串一定是相似的吗？

不一定，因为存在 边界问题。当两个网格都在边缘时，虽然它们是相邻的，但是 Geohash 的值从第一位就不一样，如下图，两个紫色的点相邻。

下面是一个精度比较高的网格，有些相邻网格的 Geohash 的值是完全不一样的。

还有一个边界问题是，对于用户（橙色）来说，隔壁网格的商家（紫色）可能比自己网格的商家（紫色）的距离还要近，如下图

所以，在查询附近的商家时，不能只局限于用户所在的网格，要扩大到用户相邻的4个或者9个网格，然后再计算距离，进行筛选，最终找到距离合适的商家。

另外，当在用户在偏远的郊区时，我们可以按照下面的方式，扩大搜索范围，返回足够数量的商家。

Geohash 的使用非常广泛的，另外 Redis 和 MongoDB 都提供了相应的功能，可以直接使用。

3 . 四叉树

还有一种比较流行的解决方案是四叉树，这种方法可以递归地把二维空间划分为四个象限，直到每个网格的商家数量都符合要求。

如下图，比如确保每个网格的数量不超过10，如果超过，就拆分为四个小的网格。

请注意，四叉树是一种内存数据结构，它不是数据库解决方案。它运行在每个LBS 服务上，数据结构是在服务启动时构建的。

接下来，看一下节点都存储了哪些信息？

内部节点

网格的左上角和右下角的坐标，以及指向 4个子节点的指针。

叶子节点

网格的左上角和右下角的坐标，以及网格内的商家的 ID 数组。

现实世界的四叉树示例

Yext 提供了一张图片，显示了其中一个城市构建的四叉树。我们需要更小、更细粒度的网格用在密集区域，而更大的网格用在偏远的郊区。

谷歌 S2 和希尔伯特曲线

Google S2 库是这个领域的另一个重要参与者，和四叉树类似，它是一种内存解决方案。它基于希尔伯特曲线把球体映射到一维索引。

而 希尔伯特曲线 是一种能填充满一个平面正方形的分形曲线（空间填充曲线），由大卫·希尔伯特在1891年提出，如下

希尔伯特曲线是怎么生成的？

最简单的一阶希尔伯特曲线，先把正方形平均分成四个网格，然后从其中一个网格的正中心开始，按照方向，连接每一个网格。

二阶的希尔伯特曲线，每个网格都先生成一阶希尔伯特曲线，然后把它们首尾相连。

三阶的希尔伯特曲线

n阶的希尔伯特曲线, 实现一条线连接整个平面。

同样，希尔伯特曲线也可以填充整个三维空间。

希尔伯特曲线的一个重要特点是降维，可以把多维空间转换成一维数组，可以通过动画看看它是如何实现的。

在一维空间上的搜索比在二维空间上的搜索效率高得多了。

多数据中心和高可用

我们可以把 LBS 服务部署到多个区域，不同地区的用户连接到最近的数据中心，这样做可以提升访问速度以及系统的高可用，并根据实际的场景，进行扩展。

最终设计图

用户需要寻找附近 500 米的餐馆。客户端把用户位置（经度和纬度），半径（500m）发送给后端。
负载均衡器把请求转发给 LBS。
基于用户位置和半径信息，LBS 找到与搜索匹配的 geohash 长度。
LBS 计算相邻的 Geohash 并将它们添加到列表中。
调用 Redis 服务获取对应的商家 ID。
LBS 根据返回的商家列表，计算用户和商家之间的距离，并进行排名，然后返回给客户端。

总结

在本文中，我们设计了一个邻近服务，介绍了4种常见了实现方式，分别是二维搜索，Geohash, 四叉树和 Google S2。它们有各自的优缺点，您可以根据实际的业务场景，选择合适的实现。

Reference

https://halfrost.com/go_spatial_search/#toc-25

https://www.amazon.com/System-Design-Interview-Insiders-Guide/dp/1736049119

posted @ 2022-06-27 08:58 SpringLeee 阅读(1435) 评论(0) 收藏举报

刷新页面返回顶部