标签:视觉
视频自监督学习综述
深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性,使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差,自监督学习提供了一种...
大型语言-视觉模型的视觉提示工程
大型语言-视觉模型的视觉提示工程,研究如何让计算机视觉模型更好地理解图像,通过在图像上标记(比如画圈)的方式来引导模型更好地理解图像。从而在一些任务上...
UC San Diego、清华 | CVPR 2022《具身人工智能》教程,200+PPT
人们对计算机视觉中的具身人工智能研究越来越感兴趣。包括ICLR 2022年物理世界的广义策略学习、IROS 2020年的OCRTOC:计算机视觉现在是具身人工智能研究的一个...
OpenAI发布文字生成3D模型Shap.E
这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序:为了提高3D生成模型的效率和多样性:直接生成可渲染为纹理网格和神经辐射场的参数:他们在编...
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
3D 内容创作的最终目标将是从海量的互联网二维图像中学习三维生成模型,最近关于三维感知生成模型的工作在一定程度上解决了这个问题。专注于从海量无标注自然...
追踪一切:基于Segment Anything的视频目标追踪和分割,已1.1k stars
这篇论文旨在解决Segment Anything Model (SAM)在视频中表现不佳的问题:该论文的关键思路是通过交互式设计实现视频对象跟踪和分割。该模型的交互设计在视频...
从39个Kaggle竞赛中总结出来的图像分割的Tips和Tricks
使用0.5的阈值对3D分割进行聚类,使用DoG(Difference of Gaussian)方法进行blob检测。使用基于patch的输入进行训练,使用cudf加载数据。使用对比度限制;使...
IEEE Spcetrum | 在寻找人类智能AI的道路上,Meta将宝押向了自监督学习
我们希望构建出能像动物和人类一样进行学习的智能机器“内容涉及到一种用于AI系统的自监督学习(SSL)。人工智能系统从标记的数据集中进行学习(标签就像教师...
从1小时到3.5分钟,Meta新算法一部手机搞定3D人脸数据采集,可用于VR的那种
就足以生成高保真、可驱动的真实3D人脸头像。是要用大型多视角人脸数据集训练一个超网络,这个超网络可以通过神经网络解码器产生专属于个人的头像参数。数据...
ECCV 2022 | PEBAL:用于城市自动驾驶系统的异常分割模型
本文研究如何有效利用abstain learning来有效检测城市自动驾驶系统中经常遭遇的异常物体,其提出PEBAL:一个融合像素级别弃权学习abstention learning 和能量...