Loading...

CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!

智源社区2年前 (2023)发布 智源社区
700 0 0

视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。

在本文中,作者提出了一个CLIP4Clip 模型,以端到端的方式将CLIP模型的知识转移到视频语言检索中。在本文中,作者通过实验研究了以下几个问题:

1) 图像特征是否足以用于视频文本检索?

2) 基于CLIP的大规模视频文本数据集的后预训练如何影响性能?

3) 对视频帧之间的时间依赖性建模的实用机制是什么?

4) 该模型对视频文本检索任务的超参数敏感性。

大量实验结果表明,基于CLIP的CLIP4Clip模型可以在各种视频文本检索数据集上实现SOTA结果,包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo。

CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

论文

https://arxiv.org/abs/2104.08860

代码:

https://github.com/ArrowLuo/CLIP4Clip

CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!

在本文中,作者利用预训练好的CLIP,提出了一个名为CLIP4Clip(CLIP For ** video Clip ** retrieval)的模型来解决视频文本检索问题。具体而言,CLIP4Clip构建在CLIP之上,并设计了一个相似度计算器来研究三种相似度计算方法:无参数型 、顺序型 和紧密型 。

与目前基于CLIP的工作相比,不同之处在于,他们的工作直接利用片段进行 zero-shot预测,而没有考虑不同的相似性计算机制。然而,本文设计了一些相似性计算方法来提高性能,并以端到端的方式训练模型。

此外,通过大量的实验,作者得出了以下结论:

1)单个图像远远不足以用于视频文本检索的视频编码。

2) 在CLIP4Clip模型上对大规模视频文本数据集进行后预训练是必需的,并且可以提高性能,特别是对于大幅度的零样本预测。

3) 基于强大的预训练CLIP,对于小数据集,最好不要引入新参数,对视频帧采用平均池化机制;对于大数据集,最好引入更多参数,以学习大型数据集的时间依赖性。

4)视频文本检索中使用的CLIP是学习率敏感的。

© 版权声明

相关文章

暂无评论

暂无评论...