【ECCV-2020】通过最小化逆动力学分歧来实现从观察中模仿学习 Consensus-Aware Visual-Semantic Embedding for Image-Text Matching

智源社区2年前 (2023)发布智源社区

600 0 0

【ECCV-2020】通过最小化逆动力学分歧来实现从观察中模仿学习 Consensus-Aware Visual-Semantic Embedding for Image-Text Matching
【推荐理由】本文收录于ECCV-2020，来自腾讯 AI Lab与天津大学的学者团队，提出一种全新的视觉-文本匹配算法模型。作者指出，现有的方法只依赖于成对的图像-文本示例来学习跨模态表征，进而利用它们的匹配关系并进行语义对齐。这些方法只利用实例级别的数据中存在的表层关联，而忽略了常识知识的价值，这会限制其对于图像与文本间更高层次语义关系的推理能力。本论文提出CVSE模型，其将两种模态间共享的常识知识注入到视觉语义嵌入模型中，进而用于图像文本匹配。具体来说，首先基于图像描述语料库中概念间的统计共生关系构造了语义关系图，并在此基础上利用图卷积得到共识知识驱动的概念表征。通过共识知识和示例级表征的联合利用，能够学习到图像和文本间的高层次语义关联并进行语义对齐。实验表明，在两个公共数据集上（Flickr30k和MSCOCO），使用共识知识可以大幅增强视觉语义嵌入模型的表征能力，使其在图像-文本双向检索任务上的表现显著优于现有方法。
【论文链接】https://arxiv.org/abs/2007.08883
【论文代码】https://github.com/BruceW91/CVSE