论文阅读——Deep Hashing Learning for Visual and Semantic Retrieval of Remote Sensing Images

背景知识:

哈希学习(learning to hash)是通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销。提高整体的学习效率

用二进制哈希码表示数据,尽可能的保留数据原空间相似性。

学习方法:

step1: 对原空间的样本采用度量学习降维,从而得到一个低维空间的实数向量

step2:对实数向量离散化得到一个二进制的哈希码

 

论文阅读:深度哈希学习在遥感图像视觉语义检索中的应用

 

 

 motivation:能否获得返回的相似图像的准确语义标签,以进一步帮助分析和处理图像。

方法:

将图像检索问题定义为图像的视觉和语义检索。具体来说就是提出了一个新的深度哈希卷积神经网络(DHCNN)来同时检索相似的图像并在统一框架中对其语义标签进行分类。卷积神经网络(CNN)用于提取高维深度特征。然后,将哈希层完美地插入到网络中,以将深度特征转换为紧凑的哈希代码。此外,在散列层上执行具有softmax函数的全连接层以生成类分布。最后,设计了一种同时考虑每个图像的标签丢失和图像对相似性损失的损失函数。

介绍:

早期的遥感图像检索方法主要利用人工标注的标签,例如地理位置、采集时间或传感器类型。这种方法叫做基于文本的图像检索。对由于图像的视觉信息不能通过带注释的标记来完全表示,因此通常会得到不精确的检索结果。相反的是,基于内容的图像检索通过直接从图像中提取特征的方法在近些年中取得了良好的结果。CBIR系统通常由两部分组成:(1)特征提取和(2)相似性度量。

RSIR提取的特征可分为三种类型:低级、中级和高级特征。设计低级特征描述符需要工程技能和领域专业知识。

更高级的是,中层特征通过利用强大的编码技术在表示遥感图像方面表现出优于底层特征的优势,例如,视觉单词包(BoVW)、Fisher向量(FV)和局部聚集描述符向量(VLAD)。然而,上述特征属于手工制作的特征,仅限于准确描述遥感图像中存在的语义信息。 然而,现有的大多数检索方法,包括基于手工特征的方法和基于深度特征的方法,都采用欧几里德距离作为相似度准则,由于计算量大,已不再适用于实时检索目标。散列方法的目的是学习一组散列函数,将高维图像特征编码到低维汉明空间,其中,每个图像由二进制哈希代码表示。通过为所有图像生成哈希代码表,可以通过哈希查找或汉明排序轻松完成检索。更先进的、基于深度哈希的方法充分利用了深度网络和哈希学习的优势,为RSIR提供了更好的性能。例如,Liet等人提出了一种用于大规模RSIR的深度哈希神经网络(DHNN)。研究了基于信源不变深度哈希卷积神经网络(SIDHCNN)的跨信源遥感图像检索。提出了一种度量和散列码学习网络(MHCLN),用于学习基于语义的度量空间,同时生成二进制散列码,以便快速准确地检索大型档案中的遥感图像。我们将传统的图像检索问题重新定义为图像的视觉和语义检索,其目的是检索相似的图像并同时对其语义标签进行分类。为此,我们提出了一种新的深度哈希CNN(DHCNN)来学习紧凑的哈希码,以实现高效的RSIR和区分特征,从而实现精确的语义标签分类。更详细地说,我们首先采用CNN从原始遥感图像中提取高维深度特征。

然后,将哈希层完美地插入CNN中,将高维深度特征编码为低维哈希码。此外,在散列层上执行具有softmax函数的全连接层以生成类分布。最后,我们精心设计了一个损失函数来训练DHCNN,其中同时考虑了每幅图像的标签信息和成对图像的相似性信息,以提高特征的表示能力。一旦DHCNN得到足够的训练,对于查询图像,我们可以通过对哈希层的输出进行二值化来生成其哈希代码,然后通过汉明距离排序轻松完成检索。此外,通过将图像的语义特征输入softmax分类器,可以获得图像的语义标签,包括查询图像及其相似图像。

贡献:

1、我们将图像检索问题重新定义为图像的视觉和语义检索。据我们所知,这是第一次在统一的框架内同时检索和分类遥感图像。

2、提出了一种新的DHCNN用于快速高效的RSIR。在这样的网络中,CNN被用来提取深度特征,而散列层被用来将连续值特征增强为离散值散列码。

3、与现有的只利用样本间相似信息的深度哈希方法不同,我们精心设计了一个包含每个图像信息的标签和成对图像的相似性信息进行了分析,增强了特征表示。

proposed framework:

为了应对遥感图像中存在的高类内和低类间变化的挑战,我们将深度学习和哈希学习相结合,以最小化相似图像对之间的特征距离,最大化不同图像对之间的特征距离。为此,我们设计了一个目标函数,同时考虑每个图像的标签信息和图像对的相似性函数。为此,我们设计了一个目标函数,同时考虑每个图像的标签信息和图像对的相似性函数。通过提出的DHCNN,我们可以提取有区别的语义特征进行准确分类,并学习紧凑的哈希码进行高效检索。图2示出了所提出的DHCNN,其包括预训练CNN、散列层和具有softmax分类器的全连接层。

 

 提出的DHCNN用于遥感图像的视觉和语义检索。首先,引入预训练的CNN来提取深度特征。然后,使用具有度量学习正则化的哈希层将高维深度特征转换为低维哈希码。此外,使用带有softmax分类器的完全连接层来生成类分布。利用哈希码和类分布,通过哈希排序可以很容易地获得一组与给定查询图像相似的图像及其语义标签。作者给出的哈希编码方式也不同。

实验结果:

 

 

 

 

 

posted @ 2021-12-26 20:37  Maggieisxin  阅读(271)  评论(0编辑  收藏  举报