谷歌DeepMind |Block-State Transformer
解决在处理长序列时,Transformer模型的计算效率和质量问题,尽管Transformer模型在语言建模任务上取得了显著的成果。但其运行时间与输入序列长度呈二次关系...
MetaAI发布第一个生成的人工智能语音模型Voicebox
这是第一个可以推广到语音生成任务的模型,以及执行降噪、内容编辑、样式转换和多样化的样本生成。生成语音人工智能需要使用精心准备的训练数据对每项任务进...
最佳 ChatGPT 替代品
无需注册 Perplexity AI [https://www.perplexity.ai/] (web-browsing) Vitalentum [https://vitalentum.net/free-gpt] OraChat [https://ora.ai...
Jim Fan等|Nvidia创建Minecraft机器人,使用GPT-4来解决游戏中的问题
语言模型生成帮助代理探索游戏的目标:以及随着时间的推移提高机器人游戏技能的代码https。Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善...
ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型
这是一种基于掩码的视觉-语言Transformer模型。该模型使用基于视觉Transformer模型对BERT进行了重构。现有的通用视觉-语言模型主要使用预训练后的BERT模型、...
MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型
将上下文学习能力从语言模型迁移到视觉-语言模型,研究如何在视觉-语言领域实现上下文学习:将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语...
ACL 2020 多跳问答的基于对齐的无监督迭代解释检索方法
机器学习算法的可解释性仍然是机器学习在真实世界应用中的一个关键的未解决的问题。当前许多 QA 的神经网络方法的研究缺乏对推断过程的人类可理解的解释。而...
推荐系统的图方法
近几年有很多工作将图模型应用于推荐系统,并为推荐系统带来了更好的实体表示和更强的解释能力。本文将介绍2020年放在arXiv上的两篇图推荐相关的综述,旨在为...
离散扩散模型的引导方法:基于引导离散扩散的蛋白质设计
传统的蛋白质设计方法在优化离散序列方面存在困难,而现有的基于结构的方法也有数据稀缺和逆向设计的挑战。本文旨在提出一种离散扩散模型的引导方法:直接在...
大模型微调究竟需要多少数据
大型语言模型的训练分为从原始文本中进行无监督的预训练,只需要有限的指导微调数据就可以教会模型产生高质量的输出,在之前的文章《也谈大模型研发中的微调...