智源社区

MetaAI发布第一个生成的人工智能语音模型Voicebox

这是第一个可以推广到语音生成任务的模型，以及执行降噪、内容编辑、样式转换和多样化的样本生成。生成语音人工智能需要使用精心准备的训练数据对每项任务进...

大模型

2年前 (2023)

Jim Fan等｜Nvidia创建Minecraft机器人，使用GPT-4来解决游戏中的问题

语言模型生成帮助代理探索游戏的目标:以及随着时间的推移提高机器人游戏技能的代码https。Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善...

智源社区

2年前 (2023)

ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型

这是一种基于掩码的视觉-语言Transformer模型。该模型使用基于视觉Transformer模型对BERT进行了重构。现有的通用视觉-语言模型主要使用预训练后的BERT模型、...

智源社区

2年前 (2023)

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

将上下文学习能力从语言模型迁移到视觉-语言模型，研究如何在视觉-语言领域实现上下文学习：将单模态的元学习知识转移到多模态中，以提高大规模预训练视觉-语...

智源社区

2年前 (2023)

ACL 2020 多跳问答的基于对齐的无监督迭代解释检索方法

机器学习算法的可解释性仍然是机器学习在真实世界应用中的一个关键的未解决的问题。当前许多 QA 的神经网络方法的研究缺乏对推断过程的人类可理解的解释。而...

智源社区

2年前 (2023)

离散扩散模型的引导方法：基于引导离散扩散的蛋白质设计

传统的蛋白质设计方法在优化离散序列方面存在困难，而现有的基于结构的方法也有数据稀缺和逆向设计的挑战。本文旨在提出一种离散扩散模型的引导方法：直接在...

大模型

2年前 (2023)

大模型微调究竟需要多少数据

大型语言模型的训练分为从原始文本中进行无监督的预训练，只需要有限的指导微调数据就可以教会模型产生高质量的输出，在之前的文章《也谈大模型研发中的微调...

大模型

2年前 (2023)

斯坦福提出FrugalGPT｜性能媲美GPT4，成本降低98%

成本和准确性之间的平衡是决策制定的关键因素。从而实现成本和环境上的权衡，最近的一项研究尝试提出解决这一成本问题的方法，该研究概述并讨论了用户可以利...

大模型

2年前 (2023)

人机视频对话｜Video-LLaMA多模态框架，使大型语言模型具备了理解视频内容的能力

面向视频理解的指令微调音频-视觉语言模型。为了赋予大型语言模型(LLM)理解视频中的视觉和听觉内容的能力：与之前关注静态图像理解的视觉-LLM不同：Video-LLa...

大模型

2年前 (2023)

MetaAI发布第一个生成的人工智能语音模型Voicebox

Jim Fan等｜Nvidia创建Minecraft机器人，使用GPT-4来解决游戏中的问题

ETHZ最新成果 | 时尚领域中的掩码视觉-语言Transformer模型

MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型

ACL 2020 多跳问答的基于对齐的无监督迭代解释检索方法

推荐系统的图方法

离散扩散模型的引导方法：基于引导离散扩散的蛋白质设计

大模型微调究竟需要多少数据

斯坦福提出FrugalGPT｜性能媲美GPT4，成本降低98%

人机视频对话｜Video-LLaMA多模态框架，使大型语言模型具备了理解视频内容的能力

站点公告

最新文章

随机网址

热门标签