Learning embeddings for cross-time geographic areas represented as graphs

Learning embeddings for cross-time geographic areas represented as graphs(以图形表示的跨时间地理区域的学习嵌入)


0 Abstract

来自垂直航拍图像的地理实体可以被视为离散对象并表示为图中的节点,通过捕捉它们的空间关系的边缘相互链接。 随着时间的推移,自然和人造景观可能会演变,因此它们的图形表示也会发生变化。

本文解决了图形检索和模糊匹配的挑战性问题,以跨时间定位几乎相同的地理区域。 提出了几个用例场景,用于使用图神经网络 (GNN) 进行图嵌入的端到端学习,以及无需学习的有效基线。

结果证明了我们的方法的有效性,该方法可以为新颖的手工工程跨时间图数据进行有效的相似性推理。代码和数据处理脚本可在线获取1.


8 Conclusion

随着大量地理数据的可用性,开发用于地理区域相似性学习的神经模型是一个相关的研究方向,而图形表示是一种非常强大和直观的地理信息编码方式。

本论文从一个新的角度提出了垂直图像研究和检索问题的方法:我们将语义信息转换为连接图。 我们创建了一个原始数据集,该数据集与一种新颖的基于深度学习的方法相关联,来跨时间学习地理图形表示。提出的算法目前优于经典方法,但与传统方法相反,它对属性中存在的噪声具有鲁棒性,这使其在实际情况下很有用。例如研究和检索自动分割和矢量化的航空图像,甚至在不同数据库中进行对应搜索。此外,所提出的方法可以直接用于学习任何属性图相似性问题的嵌入。

这里还有许多有趣的挑战需要解决,例如,提高匹配模型的效率以实现图内核的准确性,研究不同的匹配架构,使 GCN 容量适应不同大小的图,以及将这些模型应用到新的应用领域 。带有注意力的图模型可以直观地在目标应用中很好地工作,我们计划在未来采用注意力机制。 另一个可能的方向是创建可以导致最佳检索结果的最佳图形表示。最后,在实验部分,我们计划进一步试验不同的拆分方案,以估计根据年份拆分训练、验证和测试集引入的偏差。 这项工作可以促进地理图匹配的进一步研究,并提供第一个基准。


Chart

image-20220425092728295

Fig 1: 所提出的方法包括几个步骤:1)在这项工作之前手动标记航拍图像; 2)跨时间数据的POI及周边区域的选择; 3) 将这些地理实体表示为连通图; 4)基于GCN的共享权重嵌入学习; 5) 跨时间地理区域的研究和检索。

image-20220425093017045

Fig2: 图(蓝色) 代表两个时间点的地理区域。显示了详细的几何形状以供参考,它们的类别是颜色编码的: 红色 = 建筑物,橙色 = 路段,黄色 = 特殊类别的建筑物 (例如教堂,纪念碑,城堡等)。

image-20220425093344571

Fig3: 为摩泽尔省获得的匹配图形地理区域的 IOU 直方图。如果所有节点属性在图之间完全匹配(内射匹配),则 IOU 值为 1。

image-20220425093543329

Fig4: 为 2019 年的查询返回的 2004 年错误前 5 个相似图的示例。节点颜色表示地理实体的语义。

image-20220425093722161

Fig5: 用于训练图嵌入的模型的示意图。

image-20220425093912887

Table1: 单部门统计示例

image-20220425094045629

Tabel2: 提出的跨时间地理区域检索数据集的特征。 请注意,我们主要处理跨年份的单一一致的地理区域。

image-20220425094716916

Table3: map@5 Faiss相似度搜索结果,数据库包含杂乱图

image-20220425094904898

Table4: 地图 @ 5表示图形内核。k 是子图/图形的最大大小的上界,r 是顶点之间的最大考虑半径,d 是邻域深度,n 随机抽取的随机样本数,i 是迭代次数。请注意,基于属性的内核可提供良好的结果,但在存在噪声的情况下会停止工作。

image-20220425095142417

Table5: 没有使用 Faiss 相似性搜索和修改节点属性的学习检索基线。

image-20220425095319899

Table6: 全局和局部描述符的 map@5 结果。 请注意,训练和验证数据不包含杂乱,但测试数据包含。 时间以秒为单位。

image-20220425095440322

Table7: map@5 结果为全局和局部描述符,噪声 σ = 0.01。

image-20220425095628488

Table8: 全局和局部描述符的 map@5 结果,跨部门学习。


1 Introduction

综上所述,本文的贡献在于:(1)我们提出了一种新的手工设计的跨时相地理区域匹配数据集; (2) 演示了如何利用景物地标的几何属性,在不同时间提取相同的地理区域;(3) 我们提出了一个类似连体的 GCN 模型来学习两个跨时间检索场景的图嵌入,并为未来的工作建立了几个手工设计的基线;(4)我们做一个广泛的评价参数和模型通过消融研究并对数据集进行统计分析。


2.1 Structured Data Learning

2.2 Siamese Networks.


3 Problem Definition

可以利用地形数据及其几何形状中可用的语义信息来创建场景关系图 G(V,E) ,其中 V 图的节点集,E 是边集。在表示给定地理区域的图中,每个地理实体都可以表示为一个节点 v 拥有属性 X 描述其属性(例如,其地理实体类型、名称、区域等)。边代表节点之间的空间关系; 它们也可能具有属性,尽管我们在这项工作中没有使用这种可能性。 对于给定的地理区域,图形表示其空间配置。因此,可以用以下等式总结:

Ge=(Re,X,A)

其中,Re 是参考区域,X 是与所有节点关联的值的集合,所谓的节点特征和 ARN×N 就是邻接矩阵来编码所有节点之间的关系信息。参考区域 Re 是定义图形所覆盖的地理区域的通用术语。

给定多年来代表部分领土的图形子集,我们希望根据场景的结构和空间信息进行跨时间航拍图像匹配。 因此我们想学习一个图结构的嵌入,它可以考虑节点属性和节点之间的结构关系,对数据中的噪声和变化具有鲁棒性,并且紧凑,以便以后用于快速搜索并在包含数千个图形的大型数据库中检索。


4 Dataset

该数据集源自法国测绘局 (IGN) [1],其中包含从法国三个地区(摩泽尔、下莱茵和默尔特和摩泽尔)在四个不同年份拍摄的垂直航拍图像的语义注释得出的图表:2004 , 2010, 2014 和 2019。我们提供了为从矢量数据3和数据4创建图而设计的代码。

图形形成。 我们为数据库选择了地理区域,以便每个图表至少包含一个所谓的兴趣点 (POI) - 来自以下类别的建筑物:具有宗教性质的建筑物、历史物品和纪念碑、城堡或堡垒、地方政府 建筑物、具有运动功能的建筑物、火车站、机场。在我们的地理数据集中,每个中心 POI 实体 e 都有一个地理空间上下文 GCe 表示为图形:V 中的每个节点代表一个地理实体。 关系信息由图的边 E 表示,这些边是通过在节点几何的质心之间建立 Delaunay 三角剖分 [13] 来确定的。 选择这种方法是为了保证连通图的形成。

图形节点具有几何属性X(标准化周长 x1 和偏心率 x2)和一个谨慎的标签 ln ,表示节点的性质(总共 15 个:河流、道路、铁路、宗教建筑、城堡、堡垒、塔、弧、纪念碑 , 墓地, 运动场, 普通建筑, 墓地, 公共建筑, 机场)。 许多其他几何属性通常用于地理空间研究,例如一般方向、几何形式的平均轴、表面描述符、各种形状描述符 [32]。然而,我们将这项研究限制在最简单的研究上,这些研究不需要任何方向信息,也不需要高水平的细节来补偿注释中不同层次的细节,并且不对场景的方向做出任何假设。在我们的例子中,偏心是简单的E=LW ,其中 LW 是最小几何包围盒的长度和宽度。归一化周长很简单 Pn=PH×W ,请注意,我们不使用边缘属性,因为我们希望我们的图形是旋转和尺度不变的:因此,在我们的场景中,对象之间的角度不能用作边缘权重。 因此,我们数据集中的图是无向且未加权的。

图 2 显示了一个表示跨时间几乎相同区域的结果图示例。请注意两个相应日期内相应景观和图形结构的差异,有 15 年的差距,尤其是在道路方面。 我们观察到,在某些情况下,这些变化非常显着。除了使用具有匹配地理区域的三个部门之外,我们还添加了一些没有来自法国第四个部门(即 Côtes-d'Armor)的对应关系的杂乱数据,以使研究和检索场景更具挑战性。表 2 给出了 g 中的数据

表2显示了我们为跨时间检索地理区域而开发的图形数据库中的数据。请注意,图中的最大节点数是150个。这是有意做到的,我们只是删除了数据中具有大量顶点的地理区域,以限制最终图的大小。类似地,我们删除了所有少于3个节点的图。此选择由本工作稍后的GCN模型选择来解释。

数据统计。 表 1 总结了 Moselle 部门的最终图表数据特征和分布示例。有趣的是,可以看到多年来数据分布之间的差异。 另请注意,2014 年节点和边的数量发生了特殊变化 - 这可能是由于手动注释过程的变化,因为我们使用相同的代码将矢量数据转换为所有年份的图形表示。 多年来,我们使用相同的程序创建图表。

如上所述,我们的数据集并不总是包含每年完全相同的地理区域(即边界框为更现实的场景而移动),我们提供了匹配图形数据之间属性相似性的统计分析。 使用表示跨时间的相同地理区域的两个图之间的交并联合 (IOU):

IOUg1,g2=2eXg1==eXg2eXg1+eXg2

其中,Xx1,x2 是表示地理实体 e 的节点的几何属性。匹配图之间的IOU的结果分布如图3所示。得到的分布并不总是正态的,但是,分析得到的直方图,我们可以看到,当时间差越大时,IOU 值较小的图的数量越大,这似乎是合乎逻辑的。


5 Baselines

我们提出了几个基线来评估手头的场景和现有图匹配方法的性能。为了形成我们的无学习基线,我们选择了两种方法:(1)基于本地的描述符检索和(2)图内核。

对于所有实验,除非另有说明,我们使用来自 3 个部门的图作为查询,以从另一年的数据库中检索相应的数据,其中包含第 4 个部门的杂乱数据。我们使用 K 最近邻(KNN)来检索前 5 个匹配结果并报告地图平均精度值(map@5):map@K=n=1NPav@KN ,其中 N 是查询的数量,Pav 是单个查询的平均精度,K=5

没有学习相似性搜索。第一组实验被配置为找出场景对象的唯一几何属性是否足以完成图匹配任务,而不使用任何关系信息(即图表示)和任何学习。

我们使用 Facebook AI 相似性搜索(Faiss)库 [20] 来检索跨时间的地理区域。 Faiss 旨在使用 KNN 算法搜索彼此相似的多媒体文档。我们使用 L2 距离度量,根据场景中存在的每个对象的局部几何特征和语义,检索多年来最相似的地理区域。Faiss 中可用的其他相似性度量在实验上被证明性能较差。

基于 Faiss 的相似性搜索的结果总结在表 3 中。得到的 map@5 分数很高,这意味着几何属性足以描述地理区域。尽管如此,通过使用节点之间的关系信息,即图形表示,仍有可能获得改进的空间。看看返回的数据何时错误是很有趣的。图 4 展示了不正确匹配的检索结果。请注意,即使 2004 年的实际对应地理区域包含 2019 年存在的许多实体,也会返回其他区域。此示例显示了在不使用有关场景的关系信息时搜索仅用属性的局限性。同时,我们可以看到,多年来,图形结构也发生了重大的变化,我们理想情况下希望在图形匹配场景中保持稳健。

图内核。我们选择了几个流行的图形内核,它们是为具有离散和连续属性的图形设计的,以评估它们在我们的地理数据上的性能。我们测试了许多内核,但在这里我们只提供最有趣的内核的结果。我们使用的所有图形内核都在 Grakel 库 [39] 中实现。 子图匹配内核计算两个图中有界大小的子图之间的匹配次数[26]。 邻域子图成对距离核从每个图中提取成对的有根子图,这些图的根彼此相距一定距离,并且包含距根一定距离的顶点[11]。然后它根据这些有根子图对进行比较图。为了避免同构检查,使用图不变量对每个有根子图进行编码[38]。图采样核将图分解为图(即小的连通非同构子图),并对输入图中的匹配图进行计数。Weisfeiler-Lehman核[37]基于Weisfeiler-Lehman算法,其核心思想是将每个顶点的离散标签替换为由顶点的原始标签及其相邻标签的排序集组成的多集标签。生成的多重集被压缩成一个新标签。然后重复此重新标记过程以进行预定义的迭代次数。图内核不使用地面实况对应的标签来使内核适合数据,但应调整超参数以获得最佳性能。它导致选择应用所需的时间/精度比。我们将图形内核测试限制在时间间隔最大的数据上,使用 2004 年的图形作为数据库,使用 2019 年的图形作为查询。 结果总结在表4中。

获得的结果表明,图内核在跨时间图匹配任务中表现良好,优于仅基于属性而不使用图结构的Faiss。结果让我们可以说使用节点属性的内核在我们的应用场景中表现最好。有趣的是,Weisfeiler-Lehman和Graphlet采样内核都是基于结构的并且使用离散节点标签,但并没有显示出良好的结果。前者通常用于检查图的同构,因此它表示我们数据集中图的结构多年来存在显著差异,而许多属性保持不变。

节点属性在存在噪声的情况下具有鲁棒性。在我们的数据库中,由于可以访问手动标记和设计的矢量数据,我们有非常精确的节点属性,精度为六位小数。如果自动从图像中提取相同的信息,由于分割和矢量化阶段的错误,精度会下降。为了模拟这个现实场景,我们通过将节点属性中的小数位数减少到小数点后一位、两位和三位小数,并通过添加正态分布噪声来进行一组测试,其中 μ =0 和 σ = [0.1, 0.01, 0.001]去查询属性。表 5 总结了添加高斯噪声和不太精确的查询特征的 Faiss 方法结果。我们对两个性能最好的图形内核进行了类似的测试。结果见表4。

基线方法的结论。我们的实验表明,实体的属性对于研究检索极其重要。基于几何属性的 map@5 平均精度结果对于 Faiss 搜索和图内核都相当好。然而,噪声或不太精确的属性的存在会导致 map@5 检索的性能显着下降。基于结构相似性的内核不适用于我们的数据。基于局部属性的方法对噪声不鲁棒这一事实严重限制了这些方法的应用。而且,对于某些图,单纯基于节点属性的检索结果是不正确的,这留下了进一步改进的空间。错误的主要原因是几何属性相似且景观随时间变化显著的物体。在实践中,在计算机视觉领域,这个问题通常是通过在两个图像的匹配关键点之间进行几何验证,黄金标准管道是 SIFT [31] + RANSAC [15]。在 [14] 中,作者用基于 CNN 的描述符替换了 SIFT 关键点。最近,研究人员提出了更先进的完全可训练的神经网络,该网络通过共同寻找对应关系并拒绝不可匹配点来匹配两组局部特征称为 SuperGlue [36] 。

然而,所有这些方法都需要额外的步骤和处理时间,这对于大型数据库来说可能非常重要,即使有足够的索引结构。因此,在下一部分中,我们将继续研究基于学习的模型,该模型将能够提供跨时间的紧凑而有效的图形匹配。因此,这个问题的成功模型应该(1)利用图形结构,但对新实体和噪声的出现和消失具有鲁棒性,(2)能够从图形结构以及学习的语义和属性推断图形的相似性。


6 Proposed Siamese Model

我们建议,当我们需要区分具有相似对象集和相似几何属性的两个不同地理区域时,编码在图形结构中的关系信息可能非常重要。 因此,我们提出了一种新颖的学习管道,使用 GCN [24] 网络来学习匹配表示为跨时间图形的地理区域。 在最初的工作中,提出了 GCN 模型来对大稀疏图执行节点分类任务。 我们的模型旨在通过探索深度图匹配的概念来学习可变大小地理图的嵌入空间。

模型架构。给定图 G1=(V1,E1)G2=(V2,E2) ,我们想要一个模型通过 GCN 生成学习函数 f:GD 在一个新的向量空间中。编码函数 f 将当前实体和参考区域 R 内的所有地理实体的 AX 值作为输入并输出嵌入的地理空间上下文信息。

我们的模型允许将图转换为描述符,从而可以使用快速最近邻搜索数据结构进行高效检索。在我们的实验中,我们调整 Siamese 网络来处理图来学习它们的嵌入。

受GNN[24]启发,我们提出了以下的图匹配嵌入模型,它包括3个主要部分:(1)基于GCN的特征聚合层(增加了全连接层,参见附件中的详细解释??),(2)池化层,以及(3)最终的全连接层。架构示意图如图5所示。聚合层 l 遵循[24]的GCN的表述,定义为:

(3)XL+1=σ(AXlW)

其中 A 是在 [24] 邻接矩阵中进行归一化和修改的,W 是要训练的权重, σ 是 ReLu 激活函数。与 [24] 的原始工作一样,我们使用两层传播,以便每个节点的表示将在其本地 2 跳邻域中累积信息。

在我们得到最终的节点表示之后,我们将它们聚合在一起,得到图级别表示。这可以通过简单的 maxpooling 和 MLP 操作来实现,MLP 操作将节点表示减少为单个向量,然后将其转换为:

(4)D=MLPG(maxpoolingxn(Xil))

其中,X 是学习到的图节点 n 的特征。

所提出的架构主要不同于 [24] 的点 (3),我们不计算节点级特征,而是通过对图中的节点执行最大池化操作来计算图级表示,以获得整个图的描述符 DG 类似于 [25]。池化层将任何结构和大小的输入图映射到固定大小的结构化输出。

Siamese 网络由两个相同的网络组成(具有可共享的权重参数)。 在我们的例子中,每个网络本质上都是一个有最大池化的 GCN,如图 5 所示。

在训练过程中,嵌入模型将联合推理图结构和图特征,以提出一个嵌入,该嵌入反映了训练示例所描述的相似性概念。

所提出的 Siamese GCN 模型具有对比损失,可以在具有地面实况对应的数据上进行训练。 NT-Xent [9] 通过时间 (i,j) 匹配地理区域的正例对 的损失函数定义为:

(5)ls=logexp(sim(D1,D2)/τ)k=12N1kiexp(sim(D1,D2)/τ)

其中:τ 是温度,sim(Di,Dj) -余弦相似度,i,j 两个图的批大小 N

最终的损失被计算为一个小批量中所有正对的算术平均值,包括(i,j(j,i)

(6)Lf=12N[ls(2k1,2k)+ls(2k,2k1)]

遵循 [9] 的思想,我们创建了一批随机图来训练模型。但是,我们没有更改它们以用作Siamese GCN的第二个分支的输入,而是采用代表相同地理区域但来自不同时间范围的图来形成正样本。然后,损失会促使同一地理区域的嵌入在余弦距离方面在嵌入空间中更近; 并且不同区域的嵌入要相距更远。


7 Experiments

我们考虑了图形相似性学习问题的以下两种场景:

  • 跨时间对来自同一部门但按日期分离的数据进行学习和测试。
  • 一个通用的跨时间检索学习管道,其中我们将训练和测试部门分开。

第一个场景旨在使用具有时间间隔的数据学习嵌入,但使用相同的区域进行训练、验证和测试。第二个场景的目的是学习使用不同部门进行培训、测试和验证的时间错位数据的嵌入。

如上所述,我们使用来自Faiss库的向量空间中的相似性度量来计算最终描述符之间的相似性,并使用map @ K度量来评估结果。我们还像以前一样报告单个查询的平均检索时间。

在整个实验中,我们将图嵌入的维数固定为 512,尝试以下常用值:128、256、512。我们的实验表明,当最终描述符的大小低于512时,它的学习能力保持不变,但泛化能力要低得多。但是,如果描述符大小较小,则验证 map@ 5到达平台并在较低的 map@ 5值上停止增加。GCN层中的权重等于512。

在图预处理步骤中,节点的离散标签被 one-hot 编码,连续属性保持不变并与 one-hot 编码的属性连接。 由于图有不同数量的节点,我们使用填充来创建相同大小的图作为网络的输入。单个图中的节点数量等于150。

在运行时间内选择训练图对,并在每个 epoch 结束时随机混洗。

网络被训练大约200个时期,直到验证 map@ 5 精度达到平台期并开始降低。进一步的训练会导致对训练集的过度拟合,因此我们采用显示最佳验证分数的模型并报告其结果。我们在所有实验中使用的图批处理大小是64。较大的批次会导致整体模型性能下降。

我们不使用任何数据增强技术和 NT-Xent 损失让我们避免硬样本挖掘。比损失中的温度参数等于0.5。选择Adam [23] 优化器来优化学习权重。学习率等于0.13,具有衰减0.15和多步学习率调度器。所有的训练都是在一个CPU上进行的,并且不需要过多的计算能力,这主要是因为我们的图形很小。在我们的数据集上对模型进行端到端的训练以及在每个epoch 后计算map@5训练和验证数据的精度大约需要一天的时间。推理步骤中使用了模型的一个分支。

跨时间匹配学习。 我们使用这三个部门进行培训、验证和测试,按年度将数据集分离。我们在2019-2010年进行训练,在2019-2014年进行验证,最后,2019-2004年和2010-2004年的配对构成测试集。这个实验的想法是,我们希望使用已知的跨时间对应关系来检索较旧的数据。

广义学习法。 在这种情况下,我们通过使用不同的数据集进行训练和测试,来评估模型的泛化能力。我们使用两个部门进行学习,一个部门进行测试。选择时间间隔最大的最困难的数据。这可以证明所提出的模型是否可以用于全新的看不见的数据。

7.1 Results

表6总结了我们的基于GCN的描述符的跨年度学习场景的结果。我们报告了与我们的训练目标相对应的全局描述符的性能,以及局部描述符,在最大池化层之前获取所得到的节点嵌入。我们观察到,后者需要更长的时间来计算,并且表现比全局的差得多,这与我们的学习目标相对应。平均而言,表示为单个描述符的查询的检索时间是之前使用 Faiss 局部特征获得的检索时间的两倍。 获得的 map@5 值低于我们之前没有学习基线的值。

表7显示了添加到查询图形属性的噪声如何影响推理阶段的结果。这里我们可以看到,与基线方法相比,基于GCN的描述符对噪声具有相对鲁棒性,与Faiss噪声局部特征搜索的70%降低相比,map@5值降低达10%。

表 8 显示了我们基于 GCN 的描述符的泛化性。 请注意,map@5 用于相应地在两个(训练)和一个(测试)区域中进行相似性搜索。 我们之前为跨时间学习场景调整了超参数,并且可以看到网络能够为它在训练期间没有看到的新区域创建有意义的描述符,因此它的泛化性相当好。

尽管总体获得的 map@5 结果低于基线结果,但我们坚持认为基于 GCN 的网络在属性不太精确的情况下效果更好,因此对于我们目标的真实案例地理图匹配任务具有更大的潜力 。表 7 证明了生成的描述符对噪声具有鲁棒性,并在 50% 的查询中返回正确的地理区域。请注意,在没有学习基线的情况下,噪声会极大地影响map @ 5的结果,并且GCN模型对噪声具有鲁棒性。此属性是允许模型在现实场景中使用的关键属性,在现实场景中,尚无法完全自动获得理想的分割结果,甚至人工注释也可能因人而异,数据库也会有所不同。所以说,我们假设,尽管所获得的第一个结果尚未使用经典方法,但这是通往新研究方向的途径。

posted @   CHAO远  阅读(96)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示