摘要:
论文:Saliency-Guided Attention Network for Image-Sentence Matching 代码:Code 正如俗语所说“百闻不如一见”,相比与文本,图像往往隐含着更丰富的信息。作者认为,图像不仅能提供更有价值的细粒度信息,还能够完全保证其客观性。因此作者提出了 阅读全文
摘要:
根据csv文件分类,生成ImageFolder格式数据集 import csv import shutil import os target_path = './train_split/' original_path = './train/' with open('train.csv', "rt", 阅读全文
摘要:
论文:Context-Aware Multi-View Summarization Network for Image-Text Matching 代码:Code&Data 在图像与文本的跨模态中,通常面对着多视图的挑战,即对同一张图像,由于视角不同,可能会有多种文本描述。虽然有人尝试将多视图的信息 阅读全文
摘要:
论文:Classes Matter: A Fine-grained Adversarial Approach to Cross-domain Semantic Segmentation 代码:https://github.com/JDAI-CV/FADA 这篇论文主要思想是在语义分割领域通过对抗来实 阅读全文
摘要:
论文:GINet: Graph Interaction Network for Scene Parsing 介绍 目前来说,大部分语义分割的方法都是基于输入图像,也就是视觉特征进行分类,但这样就缺少了不同类别间的上下文相关性。 non-local可以通过计算不同像素之间的相关性来建立上下文关系,但计 阅读全文
摘要:
论文:Neural Multimodal Cooperative Learning Toward Micro-Video Understanding 代码:Code & Data 介绍 目前来说,对于跨模态的研究主要集中在对模态间共同的线索进行研究,即一致性。然而事实上除一致性外,互补性也同样重要。 阅读全文
摘要:
GAN GAN主要包括判别器(Discriminator)和生成器(Generator)。 判别器用来区分真实样本和虚假样本。输入图片,输出图片是真实图片的概率。接收生成器的虚假样本G(z)和真实样本x。 生成器通过随机噪声z生成虚假样本,欺骗判别器,使判别器D尽可能给出高的评分1。 此时模型就变成 阅读全文
摘要:
RNN RNN便于处理具有时序关系的任务 引入“记忆”概念 基本结构 输出不仅依赖于输入,还依赖于记忆 将同一个结构循环利用 两种输入,两种输出,一种函数 三块参数: U:从输入到隐藏状态 W:从前一隐藏状态到下一隐藏状态 V:从隐藏状态到输出 xt:时间t处的输入 ht:时间t处的记忆,ht=f( 阅读全文
摘要:
尝试在HybridSN 高光谱分类网络卷积层后加入SENet模块,代码如下: class SELayer(nn.Module): def __init__(self, channel, reduction=16): super(SELayer, self).__init__() self.avg_p 阅读全文