Loading...

热门

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

智源社区2年前 (2023)发布智源社区

638 0 0

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang
[UCLA & USC]

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

动机：研究如何在视觉-语言领域实现上下文学习，将单模态的元学习知识转移到多模态中，以提高大规模预训练视觉-语言(VL)模型的能力。
方法：首先在自然语言处理(NLP)任务上元训练一个语言模型，实现上下文学习，然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上，以实现跨模态的上下文学习能力的转移。
优势：实验证明，跨模态的上下文学习能力可以转移，该模型显著提高了视觉-语言任务上的上下文学习能力，并且在模型大小方面能够有显著的优化，例如在VQA、OK-VQA和GQA上，所提出方法在参数数量减少约20倍的情况下超过了基准模型。

探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性，证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力，甚至在模型大小方面实现优化。

https://arxiv.org/abs/2306.01311

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

# 智源社区 # 视觉 # 大模型 # 视觉 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

智源社区

407

一家380亿美元的数据巨头，要掀起企业「AI 化」革命

智源社区

639

基于matlab的生物识别模态质量度量验证

智源社区

541

Kaggle LLM Science 赛题高分思路

智源社区

635

GPT Daily | 04.19（数字人格）

GPTDaily

950

材料空间「填空解谜」：MIT 利用深度学习解决无损检测难题

智源社区

528

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2025 Ai导航鄂ICP备2023001728号