标签:视觉

伯克利|Humans in 4D:基于Transformer的视频人体重建和跟踪

基于Transformer的视频人体重建和跟踪。提出了一种基于Transformer的网络架构HMR 2.0和综合的视频跟踪系统4DHumans:实现了高质量的人体重建和跟踪,并在动作...

伯克利&微软|用GPT-4进行可控的文本-图像生成

目前的文本到图像生成模型往往难以遵循文本指令,在生成代码片断以图形方式勾勒出文本输入方面表现出显著的精确性,用GPT-4生成的程序性草图来指导基于扩散的...

Transformers多模态学习综述

Transformers多模态学习综述,本文旨在对面向多模态数据的Transformer技术进行全面调研和综述。对多模态机器学习进行综述。包括Vanilla Transformer、Vision ...

CVPR 2023 Award Candidate | 自动驾驶通用算法框架UniAD

上海人工智实验室提出了自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)。包括传感器技术、机器学习、路径规划等方面,大部分自动驾驶相关的工作...

NeRF原班人马打造Zip-NeRF,错误率降低 8%-76%,训练速度提高 22 倍

它可以利用几张静态图像生成多视角的逼真 3D 图像。一个神经网络被训练来模拟一个三维场景的体积表示,反复投射与训练图像中的像素对应的光线,并最小化(通...

SIGGRAPH | 6个惯性传感器和1个手机实现人体动作捕捉、定位与环境重建

人体运动和环境的组合感知对于人类与环境互动的场景非常重要,人体和环境同时感知可以实现更高级别的人机交互,清华大学徐枫团队提出了仅使用6个惯性传感器(...

Stable Diffusion「文生动画」Stable Animation SDK发布

Stability AI也有比肩Gen-2的视频生成工具了!美术师可以使用所有Stable Difusion模型来生成动画。Stable Animation目前仅能通过SDK和付费API使用,而是仅提...

Relightify: 基于扩散模型从单幅图像建模可重打光3D人脸

介绍了一种通过扩散模型实现从单幅图像中重建可打光的3D人脸模型的方法。取得了在纹理补全和反射率重建方面的优越性能,基于扩散模型从单幅图像建模可重打光3D...

DreamFace:只需文本即可生成「超写实3D数字人」

随着大型语言模型(LLM)、扩散(Diffusion)等技术的发展,Google、NVIDIA和微软相继推出了自己的3D生成工作,即使通过传统方案将其转换为Mesh表达的几何和...

借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统

纽卡斯尔大学联合费拉科学有限公司联合开发了一个针对多头奶牛的自动化、实时跛行检测系统。该系统能够按照跛行评分系统将奶牛进行分类,来自纽卡斯尔大学的 ...
1 15 16 17 18 19 21