颠覆传统视频生成！基于大规模多模态扩散模型的文本到视频生成

图神经网络2年前 (2023)发布智源社区

705 0 0

【OpenMMLab 社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

自从 Stable Diffusion 和 Midjourney 爆火之后，人们见识到了人工智能技术在图片生成领域的强大实力。然而，在更复杂、表达内容更丰富的视频生成领域，却缺乏一个有能力生成高质量视频内容的模型，对于下游不同类型的视频例如电影和短视频的创作也更是天方夜谭。为了打破这一困境，微软亚洲研究院（MSRA）联合多所高校在视频生成领域提出了一系列工作，涵盖基础生成模型和实现下游视频生成任务的应用模型。

本期开放麦，我们邀请到微软亚洲研究院多模态计算组高级研究员杨欢，他将为我们详细介绍视频生成领域的一系列新工作。

分享内容

生成模型的发展
基础视频生成模型

MM-Diffusion：联合音视频生成模型

VideoFactory：高画质视频生成
视频生成应用

MovieFactory：影视级生成

MobileVidFactory：短视频生成
机会与挑战

分享时间

北京时间

2023 年 8 月31 日（周四）

20: 00 – 20: 40（分享）

20: 40 – 21: 00（Q&A）

分享嘉宾

杨欢

微软亚洲研究院多模态计算组高级研究员。研究方向包括多模态内容创作，图像视频增强等。

内容详情

本次报告主要包括两部分，一部分是基础视频生成模型，另一部分是基于已有的基础模型进行的一系列下游视频生成的应用。

首先为了构建足够强大的基础生成模型，我们首先提出了联合音视频生成模型 MM-Diffusion。该模型可以同时生成匹配的音频和视频，带来相对单模态更加吸引人的观看和聆听体验。为了生成联合音视频对，我们有针对性地设计了两个耦合的去噪自动编码器，分别处理音频和视频两个模态。为了确保模态之间的语义一致性，我们提出了一种基于随机移位的注意力模块桥接两个子网，能够实现有效的跨模态对齐，从而增强生成结果的保真度。大量实验表明，在无条件音视频生成和零样本条件生成任务下，该模型均取得了优异的结果。

为了进一步拓展当前的基础视频生成模型的通用性，我们进一步构建了开放域视频生成模型 VideoFactory，能够生成高清（1376×768）、宽屏 (16:9) 、无水印的高质量视频，创造引人入胜的用户体验。为了对空时间复杂关系进行建模，我们提出了一种加强空间与时间感知之间相互作用的交换交叉注意力机制，交替空间和时间块之间的“查询”角色，从而实现相互增强。更进一步，为了支撑高质量视频生成模型的训练，我们构建了 HD-VG-130M 的大规模视频数据集，该数据集包含来自开放域的 1.3 亿个文本-视频对，并具有高清、宽屏、无水印的优良性质。客观指标和用户研究证明了我们的方法在单帧质量、时间相关性和文本视频对齐方面的优越性。

基于上文提出的基础视频生成模型，我们进一步探索了其在垂直领域上的应用，分别提出了针对电影生成和短视频生成的应用模型。相比于基础模型，它能：1）仅用少量数据快速迁移到不同的视频生成任务，2）生成高质量且泛化性优异的视频等优势。

首先，我们针对电影生成提出了 MovieFactory。它是一个根据自然语言需求生成电影画质、多幕场景和带有音频电影的框架，能够让用户通过简单的文本输入创造出具有流畅过渡的引人入胜的电影。为此，我们利用 ChatGPT 将用户提供的简短文本扩展为详细的电影生成剧本，然后通过视频生成模型和音频检索将剧本在视觉和听觉上呈现出来。

其次，我们聚焦于短视频领域，提出了 MobileVidFactory。它是一个根据简单文本自动生成适合移动设备观看的竖屏短视频的框架。在训练上，我们利用少量数据以微调的形式将基础模型适配为一个竖屏短视频生成模型。此外，框架还支持用户添加指定屏幕文字来丰富视觉表达，并指定文字以喜欢的声音进行自动朗读，并搭配上背景声效。

相关工作

Paper:

MM-Diffusion

https://arxiv.org/abs/2212.09478

VideoFactory

https://arxiv.org/abs/2305.10874

MovieFactory

https://arxiv.org/abs/2306.07257

MobileVidFactory

https://arxiv.org/abs/2307.16371

Code:

MM-Diffusion