CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

智源社区3年前 (2023)发布智源社区

1,255 0 0

视频文本检索在多模态研究中起着至关重要的作用，在许多实际应用中得到了广泛的使用。CLIP（对比语言图像预训练）是一种图像语言预训练模型，它展示了从网络收集的图像文本数据集中学习视觉概念的能力。

在本文中，作者提出了一个CLIP4Clip 模型，以端到端的方式将CLIP模型的知识转移到视频语言检索中。在本文中，作者通过实验研究了以下几个问题：

1）图像特征是否足以用于视频文本检索？

2）基于CLIP的大规模视频文本数据集的后预训练如何影响性能？

3）对视频帧之间的时间依赖性建模的实用机制是什么？

4）该模型对视频文本检索任务的超参数敏感性。

大量实验结果表明，基于CLIP的CLIP4Clip模型可以在各种视频文本检索数据集上实现SOTA结果，包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo。

CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

论文：

https://arxiv.org/abs/2104.08860

代码：

https://github.com/ArrowLuo/CLIP4Clip

CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

在本文中，作者利用预训练好的CLIP，提出了一个名为CLIP4Clip（CLIP For ** video Clip ** retrieval）的模型来解决视频文本检索问题。具体而言，CLIP4Clip构建在CLIP之上，并设计了一个相似度计算器来研究三种相似度计算方法：无参数型、顺序型和紧密型。

与目前基于CLIP的工作相比，不同之处在于，他们的工作直接利用片段进行 zero-shot预测，而没有考虑不同的相似性计算机制。然而，本文设计了一些相似性计算方法来提高性能，并以端到端的方式训练模型。

此外，通过大量的实验，作者得出了以下结论：

1）单个图像远远不足以用于视频文本检索的视频编码。

2）在CLIP4Clip模型上对大规模视频文本数据集进行后预训练是必需的，并且可以提高性能，特别是对于大幅度的零样本预测。

3）基于强大的预训练CLIP，对于小数据集，最好不要引入新参数，对视频帧采用平均池化机制；对于大数据集，最好引入更多参数，以学习大型数据集的时间依赖性。

4）视频文本检索中使用的CLIP是学习率敏感的。

文章版权归作者所有，未经允许请勿转载。

加速经典算法效率，突破现实技术瓶颈：图神经网络与组合优化读书会启动

智源社区

927

深圳，再添1所985！

智源社区

757

陶哲轩新论文秘密武器曝光：用AI写LaTeX巨丝滑

智源社区

745

KDD2022 | 什么特征进行交互才是有效的？

智源社区

825

ImpressionGPT：利用ChatGPT对放射科报告进行总结的迭代优化框架

智源社区

1,006

实用指南｜ChatGPT及其他大语言模型实用综述，Yann LeCun转发

智源社区

1,302

暂无评论

暂无评论...

CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

神经网络模型相似性：功能和表征相似性度量方法综述

相关文章

暂无评论

相关文章

热门标签

热门网址