标签:视觉
ACM MM 2023 | 中科院自动化所何晖光课题组提出多视图对比学习技术助力实现基于EEG的听觉注意解码
'NeuBCI' team from the Institute of Automation, Chinese Academy of Sciences, has proposed an auditory attention decoding model based on multi-view ...
神经网络训练失败的原因总结
本文分析了导致模型训练不收敛或失败的原因,从数据方面总结了四种可能的原因,模型方面总结了九种可能的问题,并提供了常规做法。在面对模型不收敛的时候,...
手把手教你使用人工智能生成游戏 3D 素材
AI在游戏开发中扮演重要角色,尤其在生成3D素材方面。但是,从文本到3D的实用性仍然落后于2D。本文介绍了如何将生成型AI集成到PS1风格的3D工作流中,以提高实...
Google DeepMind|指导图像描述模型生成更具体的描述
本文提出了两种策略来引导图像描述模型生成更具体的描述:无分类器引导和语言模型引导。通过微调自回归描述模型,实现了无分类器的引导,以估计描述的条件和...
Jim Fan等|Nvidia创建Minecraft机器人,使用GPT-4来解决游戏中的问题
语言模型生成帮助代理探索游戏的目标:以及随着时间的推移提高机器人游戏技能的代码https。Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善...
ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型
这是一种基于掩码的视觉-语言Transformer模型。该模型使用基于视觉Transformer模型对BERT进行了重构。现有的通用视觉-语言模型主要使用预训练后的BERT模型、...
MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型
将上下文学习能力从语言模型迁移到视觉-语言模型,研究如何在视觉-语言领域实现上下文学习:将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语...
机器学习张量库,目前3.2k星
官网地址:http://ggml.ai:Github地址:https,//github.com/ggerganov/ggml。ggml.ai是一家由Georgi Gerganov创立的公司。旨在支持ggml的开发Nat Friedman和...
神经网络重建3D物体,英伟达发布Neuralangelo|CVPR 2023
?智源社区日报关注订阅? Digital Renaissance: NVIDIA Neuralangelo Research Reconstructs 3D Scenes 英伟达团队提出Neuralangelo,从2D视频重建3D大规模场...
图神经网络也能用作CV骨干模型,华为诺亚ViG架构媲美CNN、Transformer
华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的...