高效训练多模态大模型（BLIP-2）｜OpenBMB论文速读第 6 期

大模型2年前 (2023)更新智源社区

2,246 0 0

【论文速读】是OpenBMB发起的大模型论文学习栏目，用 高效的思维导图 形式，带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域 的论文。

本期论文速读带大家了解如何利用现有的大语言模型和图像模型来高效率地训练一个多模态的预训练模型——BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image encoders and Large Language Models，由清华大学自然语言处理实验室硕士研究生余天予进行领读讲解。

01 作者信息

Junnan Li，Dongxu Li，Silvio Savarese，Steven Hoi

02 论文简介

关键词 KeyWords

Vision-language Pre-training

Efficient Pre-training

Instruction Following

摘要概览 Abstract

利用现成的大语言模型和图像模型来高效率地训练一个多模态模型

03 研究设计

研究思路

将视觉特征表示和文本特征表示进行对齐

研究方法

第一阶段

固定视觉预训练模型，通过三个任务来训练一个 Q-Former 将图像输入中的语义编码到一个和文本特征空间相似的特征空间中。具体来讲，模型基于 K 个可学习的 query 嵌入和 cross-attention 机制从图像中获取特征，三个任务包括：

1. 图文匹配：对输入的（图像，文本）二元组分类，判断其是否相关
2. 基于图像的文本生成：给定图像输入，生成对应的文本描述
3. 图文对比学习：拉近图像特征和对应文本特征的距离，增大其和无关文本特征的距离

第二阶段

将 Q-Former 的输出通过一个全联接网络输入给固定的大语言模型，通过【基于图像的文本生成】任务将与文本特征进行了初步对齐的视觉特征进一步编码为大语言模型可以理解的输入。

‍

04 实验结果

零样本性能

BLIP-2 仅仅通过训练轻量的 Q-Former 和一个很小的全连接网络，便可以在零样本的 VQA 任务或是零样本的 Image Captioning 任务上实现 SoTA (state-of-the-art）的性能。

微调性能

在微调的场景下（例如 QA 任务）也能够取得不错的性能，相比一些更大的模型， BLIP-2 能够以更少的可训练参数取得更好的性能。

第一阶段消融实验

进行第一阶段的微调/训练之后，模型能够在下游任务上有更好的表现

05 论文贡献

优点‍‍‍‍

通过固定单模态的预训练模型，BLIP-2 大大减少了预训练所需的计算和数据资源。

通过固定大语言模型的参数，BLIP-2 保留了大语言模型的 Instruction Following 能力。

缺点‍

模型没有多模态的 In-Context-Learning 能力
保留了大语言模型的一些缺点，比如可能输出不准确的信息

▾ 传送门论文链接

? https://arxiv.org/abs/2301.12597

▾ 公众号回复「论文速读」

即可获得高清完整版思维导图

我们为读者准备了一份高清思维导图，包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ，后台发送“论文速读” ，即可领取论文学习高清思维导图和 FreeMind ！

以上是本期论文速读的全部内容，后续 OpenBMB 会围绕大模型介绍更多前沿论文，欢迎大家持续关注！?

➤ 加社群/ 提建议/ 有疑问

请找 OpenBMB 万能小助手：

官方网站

https://www.openbmb.org

GitHub

https://github.com/OpenBMB

https://github.com/thunlp

技术文章

Delta Tuning 登陆 Nature子刊 | 大模型工具学习引擎 BMTools

CPM-Ant 训练完成 | BMInf 适配GLM-130B

高效训练工具 BMTrain | BMTrain 技术原理

CPM-Live 邀请函 | CPM-Live 训练启动

OpenBMB 社区介绍 | 大模型课程

大模型榜单 BMList

长期开放招聘｜含实习

开发岗 | 研发岗 | 运营岗

交流QQ群

735930538

欢迎转载

商务合作请联系

openbmb@gmail.com

?期待您的关注与加入?

文章版权归作者所有，未经允许请勿转载。

Lecun报告《目标驱动AI：能学习、记忆、推理、规划、具备常识且可控安全的AI系统研究》

智源社区

650

可解释人工智能（XAI）和地理学｜周六直播·复杂系统视角的城市科学读书会

智源社区

539

Chem. Eng. J | 掌控基于ESIPT的AIE效应设计具有单组分白光发射的光学材料

智源社区

521

大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

智源社区

549

大型语言模型能否成为人类评估的替代品？

智源社区

660

Nat. Genet. | 深度蛋白质语言模型在基因组范围内预测疾病变异效应

智源社区

488

暂无评论

暂无评论...

高效训练多模态大模型（BLIP-2）｜OpenBMB论文速读第 6 期

使用自然语言学习编程

北大｜全面评估ChatGPT的信息抽取能力：性能、可解释性、校准和忠实度的评估

相关文章

暂无评论

相关文章

热门标签

热门网址