Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

 Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

2018-07-27 14:25:26

Paperhttps://arxiv.org/pdf/1807.06233.pdf 

Related Papers:  

1. Infrared and visible image fusion methods and applications: A survey   Paper 

2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition  or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]

3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page

 

 

本文针对多模态融合问题(Multi-modal),提出一种基于 gate 机制的融合策略,能够自适应的进行多模态信息的融合。作者将该方法用到了物体检测上,其大致流程图如下所示:

 

 如上图所示,作者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外,作者提出新的 GIF(Gated Information Fusion Network) 网络进行多个模态之间信息的融合,以取得更好的结果。动机当然就是多个模态的信息,是互补的,但是有的信息帮助会更大,有的可能就质量比较差,功效比较小,于是就可以自适应的来融合,达到更好的效果。

 

Gated Information Fusion Network (GIF): 

如上图所示:

该 GIF 网络的输入是:已经提取的 CNN feature map,这里是 F1, F2. 然后,将这两个 feature 进行 concatenate,得到 FG. 该网络包含两个部分:

1. information fusion network(图2,虚线框意外的部分);

2. weight generation network (WG Network,即:图2,虚线处);

Weight Generation Network 分别用两个 3*3*1 的卷积核对组合后的 feature map FG 进行操作,然后输入到 sigmoid 函数中,即:gate layer,然后输出对应的权重 w1w2

Information fusion network 分别用得到的两个权重,点乘原始的 feature map,得到加权以后的特征图,将两者进行 concatenate 后,用 1*1*2k 的卷积核,得到最终的 feature map。

总结整个过程,可以归纳为:

 

== Done ! 

posted @   AHU-WangXiao  阅读(1455)  评论(8编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
历史上的今天:
2016-07-27 VGG-19 和 VGG-16 的 prototxt文件
2016-07-27 (转) ICML2016 TUTORIAL参会分享
2016-07-27 (转) Lua string 操作函数
2016-07-27 代码备份:处理 SUN397 的代码,将其分为 80% 训练数据 以及 20% 的测试数据
2016-07-27 (转) Deep Reinforcement Learning: Pong from Pixels
点击右上角即可分享
微信分享提示