论文阅读笔记ECCV 2018: Factorizable net: an efficient subgraph-based framework for scene graph generation
一、contribution
提出了一种基于子图的场景图生成方法,该方法具有以下特点:
(1)首先,提出了一种自底向上的聚类方法,将图像分解为子图。通过共享子图中的区域表示,我们的方法可以显著减少冗余计算并加快推理速度。此外,较少的表示允许我们使用二维特征图来维护子图区域的空间信息。
(2)其次,提出了一种空间加权消息传递(SMP)结构,用于在对象特征向量和子图特征映射之间传递消息。
(3)第三,提出了一个空间敏感关系推理(SRI)模块,该模块利用主语、宾语和子图表示的特征来识别对象之间的关系。视觉关系检测和视觉基因组的实验表明,我们的方法优于最先进的方法,推理速度显著加快。
二、method
步骤:
(1)generate object region proposals with RPN(region proposal network)
(2)group the object proposals into pairs and establish the fully-connected relations
(3) cluster the fully-connected graph into several subgraphs and share the subgroup features for object pairs within the subgraph, then a factorized connection graph(映像连接图)is obtained by treating each subgraph as a node
(4)ROI pools the objects and subgraph features and transforms them into feature vectors and 2D feature maps respectively
(5) jointly refine the object and subgraph featuresby passing message along the subgraph-based connection graph for better rep-resentations
(6) recognize the object categories with object features and theirrelations (predicates) by fusing the subgraph features and object feature pairs
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码