视觉 | 第 11 页

哈佛｜AttentionViz：Transformer 注意力的全局视角

这篇论文试图解决Transformer模型中的自注意力机制的可解释性问题。旨在帮助研究人员理解这种机制如何使模型学习序列中元素之间的丰富、上下文关系：这可以帮...

智源社区

2年前 (2023)

视频自监督学习综述

深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性，使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差，自监督学习提供了一种...

智源社区

2年前 (2023)

大型语言-视觉模型的视觉提示工程

大型语言-视觉模型的视觉提示工程，研究如何让计算机视觉模型更好地理解图像，通过在图像上标记(比如画圈)的方式来引导模型更好地理解图像。从而在一些任务上...

智源社区

2年前 (2023)

UC San Diego、清华 | CVPR 2022《具身人工智能》教程，200+PPT

人们对计算机视觉中的具身人工智能研究越来越感兴趣。包括ICLR 2022年物理世界的广义策略学习、IROS 2020年的OCRTOC:计算机视觉现在是具身人工智能研究的一个...

智源社区

2年前 (2023)

OpenAI发布文字生成3D模型Shap.E

这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序：为了提高3D生成模型的效率和多样性：直接生成可渲染为纹理网格和神经辐射场的参数：他们在编...

智源社区

2年前 (2023)

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

3D 内容创作的最终目标将是从海量的互联网二维图像中学习三维生成模型，最近关于三维感知生成模型的工作在一定程度上解决了这个问题。专注于从海量无标注自然...

智源社区

2年前 (2023)

追踪一切：基于Segment Anything的视频目标追踪和分割，已1.1k stars

这篇论文旨在解决Segment Anything Model (SAM)在视频中表现不佳的问题：该论文的关键思路是通过交互式设计实现视频对象跟踪和分割。该模型的交互设计在视频...

智源社区

2年前 (2023)

从39个Kaggle竞赛中总结出来的图像分割的Tips和Tricks

使用0.5的阈值对3D分割进行聚类，使用DoG（Difference of Gaussian）方法进行blob检测。使用基于patch的输入进行训练，使用cudf加载数据。使用对比度限制;使...

智源社区

2年前 (2023)

IEEE Spcetrum | 在寻找人类智能AI的道路上，Meta将宝押向了自监督学习

我们希望构建出能像动物和人类一样进行学习的智能机器“内容涉及到一种用于AI系统的自监督学习（SSL）。人工智能系统从标记的数据集中进行学习（标签就像教师...

智源社区

2年前 (2023)

从1小时到3.5分钟，Meta新算法一部手机搞定3D人脸数据采集，可用于VR的那种

就足以生成高保真、可驱动的真实3D人脸头像。是要用大型多视角人脸数据集训练一个超网络，这个超网络可以通过神经网络解码器产生专属于个人的头像参数。数据...

智源社区

2年前 (2023)

视觉

哈佛｜AttentionViz：Transformer 注意力的全局视角

视频自监督学习综述

大型语言-视觉模型的视觉提示工程

UC San Diego、清华 | CVPR 2022《具身人工智能》教程，200+PPT

OpenAI发布文字生成3D模型Shap.E

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

追踪一切：基于Segment Anything的视频目标追踪和分割，已1.1k stars

从39个Kaggle竞赛中总结出来的图像分割的Tips和Tricks

IEEE Spcetrum | 在寻找人类智能AI的道路上，Meta将宝押向了自监督学习

从1小时到3.5分钟，Meta新算法一部手机搞定3D人脸数据采集，可用于VR的那种

站点公告

最新文章

随机网址

热门标签