标签:视觉
MinD-Video|读取大脑重建高清视频,Stable Diffusion
但以往的研究都主要聚焦在重建静态图像,而以高清视频形式来展现的工作还是较为有限。而fMRI这项技术的本质是测量血氧水平依赖(BOLD)信号,这项任务的难点...
微软等|基于可组合扩散的Any-to-An的生成
CoDi是一种创新的多模态生成模型:能自由生成任意组合的输出模态。并在生成质量方面超越或与单模态合成的最先进方法持平,开发一种能生成任意组合输出形式(如...
DragGAN模型|运动监督和点跟踪,点鼠标交互即可实现P图
本篇论文旨在解决生成对抗网络(GAN)中控制生成图像的问题”实现用户交互式精确控制生成图像的姿态、形状、表情和布局。DragGAN在图像操纵和点跟踪任务中优于...
拖动你的GAN:基于交互式点的操作生成图像流形
本篇论文旨在解决生成对抗网络(GAN)中控制生成图像的问题“实现用户交互式精确控制生成图像的姿态、形状、表情和布局:利用辨别式生成器特征来不断定位手柄...
AutoRecon:全自动化框架,3D目标发现与重建的自动化
用于从多视角图像中发现和重建无背景的物体模型:3D目标发现与重建的自动化。在数字内容创作中,全自动目标重建流程至关重要。尽管3D重建领域取得了深远的发...
哈佛|AttentionViz:Transformer 注意力的全局视角
这篇论文试图解决Transformer模型中的自注意力机制的可解释性问题。旨在帮助研究人员理解这种机制如何使模型学习序列中元素之间的丰富、上下文关系:这可以帮...
【ECCV-2020】通过最小化逆动力学分歧来实现从观察中模仿学习 Consensus-Aware Visual-Semantic Embedding for Image-Text Matching
提出一种全新的视觉-文本匹配算法模型,现有的方法只依赖于成对的图像-文本示例来学习跨模态表征。这些方法只利用实例级别的数据中存在的表层关联,这会限制...
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
视频文本检索在多模态研究中起着至关重要的作用,CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念...
悟透Transformer–AI是如何学习扑克牌排序的(一)
人工智能的各个领域(自然语言处理、计算机视觉等)是兄弟爬山,每个领域都有自己的模型框架。作为一种具有更高普适性的AI模型架构,但绝大部分是从谷歌的原...
文生图开源模型比较库
可根据输入文字同时用stable-diffusion 1.5、stable-diffusion 2.1、DALL-E、kandinsky-2等模型生成图像。用于测试生成比较:Github地址:https?//zoo.replica...