智源社区

MetaAI发布第一个生成的人工智能语音模型Voicebox

这是第一个可以推广到语音生成任务的模型,以及执行降噪、内容编辑、样式转换和多样化的样本生成。生成语音人工智能需要使用精心准备的训练数据对每项任务进...

Jim Fan等|Nvidia创建Minecraft机器人,使用GPT-4来解决游戏中的问题

语言模型生成帮助代理探索游戏的目标:以及随着时间的推移提高机器人游戏技能的代码https。Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善...

ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型

这是一种基于掩码的视觉-语言Transformer模型。该模型使用基于视觉Transformer模型对BERT进行了重构。现有的通用视觉-语言模型主要使用预训练后的BERT模型、...

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

将上下文学习能力从语言模型迁移到视觉-语言模型,研究如何在视觉-语言领域实现上下文学习:将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语...

ACL 2020 多跳问答的基于对齐的无监督迭代解释检索方法

机器学习算法的可解释性仍然是机器学习在真实世界应用中的一个关键的未解决的问题。当前许多 QA 的神经网络方法的研究缺乏对推断过程的人类可理解的解释。而...

推荐系统的图方法

近几年有很多工作将图模型应用于推荐系统,并为推荐系统带来了更好的实体表示和更强的解释能力。本文将介绍2020年放在arXiv上的两篇图推荐相关的综述,旨在为...

离散扩散模型的引导方法:基于引导离散扩散的蛋白质设计

传统的蛋白质设计方法在优化离散序列方面存在困难,而现有的基于结构的方法也有数据稀缺和逆向设计的挑战。本文旨在提出一种离散扩散模型的引导方法:直接在...

大模型微调究竟需要多少数据

大型语言模型的训练分为从原始文本中进行无监督的预训练,只需要有限的指导微调数据就可以教会模型产生高质量的输出,在之前的文章《也谈大模型研发中的微调...

斯坦福提出FrugalGPT|性能媲美GPT4,成本降低98%

成本和准确性之间的平衡是决策制定的关键因素。从而实现成本和环境上的权衡,最近的一项研究尝试提出解决这一成本问题的方法,该研究概述并讨论了用户可以利...

人机视频对话|Video-LLaMA多模态框架,使大型语言模型具备了理解视频内容的能力

面向视频理解的指令微调音频-视觉语言模型。为了赋予大型语言模型(LLM)理解视频中的视觉和听觉内容的能力:与之前关注静态图像理解的视觉-LLM不同:Video-LLa...
1 37 38 39 40 41 60