视觉

是机器学习的范式和方法论之一,是智能体与环境不断交互,从而不断强化自己的决策能力的过程

神经网络训练失败的原因总结

本文分析了导致模型训练不收敛或失败的原因,从数据方面总结了四种可能的原因,模型方面总结了九种可能的问题,并提供了常规做法。在面对模型不收敛的时候,...

手把手教你使用人工智能生成游戏 3D 素材

AI在游戏开发中扮演重要角色,尤其在生成3D素材方面。但是,从文本到3D的实用性仍然落后于2D。本文介绍了如何将生成型AI集成到PS1风格的3D工作流中,以提高实...

Jim Fan等|Nvidia创建Minecraft机器人,使用GPT-4来解决游戏中的问题

语言模型生成帮助代理探索游戏的目标:以及随着时间的推移提高机器人游戏技能的代码https。Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善...

ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型

这是一种基于掩码的视觉-语言Transformer模型。该模型使用基于视觉Transformer模型对BERT进行了重构。现有的通用视觉-语言模型主要使用预训练后的BERT模型、...

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

将上下文学习能力从语言模型迁移到视觉-语言模型,研究如何在视觉-语言领域实现上下文学习:将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语...

伯克利|Humans in 4D:基于Transformer的视频人体重建和跟踪

基于Transformer的视频人体重建和跟踪。提出了一种基于Transformer的网络架构HMR 2.0和综合的视频跟踪系统4DHumans:实现了高质量的人体重建和跟踪,并在动作...

伯克利&微软|用GPT-4进行可控的文本-图像生成

目前的文本到图像生成模型往往难以遵循文本指令,在生成代码片断以图形方式勾勒出文本输入方面表现出显著的精确性,用GPT-4生成的程序性草图来指导基于扩散的...

Transformers多模态学习综述

Transformers多模态学习综述,本文旨在对面向多模态数据的Transformer技术进行全面调研和综述。对多模态机器学习进行综述。包括Vanilla Transformer、Vision ...

CVPR 2023 Award Candidate | 自动驾驶通用算法框架UniAD

上海人工智实验室提出了自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)。包括传感器技术、机器学习、路径规划等方面,大部分自动驾驶相关的工作...

NeRF原班人马打造Zip-NeRF,错误率降低 8%-76%,训练速度提高 22 倍

它可以利用几张静态图像生成多视角的逼真 3D 图像。一个神经网络被训练来模拟一个三维场景的体积表示,反复投射与训练图像中的像素对应的光线,并最小化(通...
1 7 8 9 10 11 12