Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network
Robust Deep Multi-modal Learning Based on Gated Information Fusion Network
2018-07-27 14:25:26
Paper:https://arxiv.org/pdf/1807.06233.pdf
Related Papers:
1. Infrared and visible image fusion methods and applications: A survey Paper
2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]
3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page]
本文针对多模态融合问题(Multi-modal),提出一种基于 gate 机制的融合策略,能够自适应的进行多模态信息的融合。作者将该方法用到了物体检测上,其大致流程图如下所示:
如上图所示,作者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外,作者提出新的 GIF(Gated Information Fusion Network) 网络进行多个模态之间信息的融合,以取得更好的结果。动机当然就是多个模态的信息,是互补的,但是有的信息帮助会更大,有的可能就质量比较差,功效比较小,于是就可以自适应的来融合,达到更好的效果。
Gated Information Fusion Network (GIF):
如上图所示:
该 GIF 网络的输入是:已经提取的 CNN feature map,这里是 F1, F2. 然后,将这两个 feature 进行 concatenate,得到 . 该网络包含两个部分:
1. information fusion network(图2,虚线框意外的部分);
2. weight generation network (WG Network,即:图2,虚线处);
Weight Generation Network 分别用两个 3*3*1 的卷积核对组合后的 feature map 进行操作,然后输入到 sigmoid 函数中,即:gate layer,然后输出对应的权重 ,。
Information fusion network 分别用得到的两个权重,点乘原始的 feature map,得到加权以后的特征图,将两者进行 concatenate 后,用 1*1*2k 的卷积核,得到最终的 feature map。
总结整个过程,可以归纳为:
== Done !
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
2016-07-27 VGG-19 和 VGG-16 的 prototxt文件
2016-07-27 (转) ICML2016 TUTORIAL参会分享
2016-07-27 (转) Lua string 操作函数
2016-07-27 代码备份:处理 SUN397 的代码,将其分为 80% 训练数据 以及 20% 的测试数据
2016-07-27 (转) Deep Reinforcement Learning: Pong from Pixels