Loading...

热门

大型语言-视觉模型的视觉提示工程

智源社区2年前 (2023)发布智源社区

703 0 0

What does CLIP know about a red circle? Visual prompt engineering for VLMs

Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
[University of Oxford]

大型语言-视觉模型的视觉提示工程

要点:

动机：研究如何让计算机视觉模型更好地理解图像，并探讨大型语言-视觉模型存在的潜在伦理问题。
方法：通过在图像上标记(比如画圈)的方式来引导模型更好地理解图像，从而在一些任务上取得了很好的效果，并对模型行为进行了分析，以探究模型的表现原因。
优势：这种标记方法能够在零样本情况下帮助模型更好地理解图像，并在一些任务上取得了很好的效果。此外，该论文还探讨了大型语言-视觉模型存在的潜在伦理问题。

研究了如何通过简单的标记(比如画个红圈)来引导计算机视觉模型(如CLIP)更好地理解图像，从而在一些任务上取得了很好的效果，并探讨了大型语言-视觉模型存在的一些潜在的伦理问题。

https://arxiv.org/abs/2304.06712
大型语言-视觉模型的视觉提示工程

# 智源社区 # 视觉 # 视觉 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ACC-UNet | 致敬ConvNeXt，全卷积结构UNet设计，超越SWin-UNet！

智源社区

968

北京邮电大学|用于成本和延迟敏感的虚拟网络功能放置和路由的多智能体深度强化学习

智源社区

583

大模型现存的10个问题和挑战

智源社区

643

ICCV 2023：探索基于生成模型的 Backbone 预训练

智源社区

648

华盛顿大学&谷歌｜用更少数据和更小模型超越更大的语言模型

智源社区

735

神经网络训练失败的原因总结

智源社区

519

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2025 Ai导航鄂ICP备2023001728号