标签:论文
MetaVL: 将上下文学习能力从语言模型迁移到视觉-语言模型
将上下文学习能力从语言模型迁移到视觉-语言模型,研究如何在视觉-语言领域实现上下文学习:将单模态的元学习知识转移到多模态中,以提高大规模预训练视觉-语...
离散扩散模型的引导方法:基于引导离散扩散的蛋白质设计
传统的蛋白质设计方法在优化离散序列方面存在困难,而现有的基于结构的方法也有数据稀缺和逆向设计的挑战。本文旨在提出一种离散扩散模型的引导方法:直接在...
斯坦福提出FrugalGPT|性能媲美GPT4,成本降低98%
成本和准确性之间的平衡是决策制定的关键因素。从而实现成本和环境上的权衡,最近的一项研究尝试提出解决这一成本问题的方法,该研究概述并讨论了用户可以利...
人机视频对话|Video-LLaMA多模态框架,使大型语言模型具备了理解视频内容的能力
面向视频理解的指令微调音频-视觉语言模型。为了赋予大型语言模型(LLM)理解视频中的视觉和听觉内容的能力:与之前关注静态图像理解的视觉-LLM不同:Video-LLa...
斯坦福|多任务无需标注,基于反事实世界建模的统一机器视觉
通过构建一个视觉基础模型来统一(机器)视觉领域“展示了大型预训练神经网络如何提供零样本解决方案来执行广泛的明显不同的任务,从而使模型能够对场景、物体和...
谷歌|面向弱监督学习的局部增强
面向弱监督学习的局部增强,提出一种针对弱监督学习的局部增强(LocalBoost)框架,以改进弱监督学习中的性能表现。数据通常通过弱的、含噪的来源进行标记,因...
AI21 Labs|是人还是AI?图灵测试的游戏化方法
图灵测试的游戏化方法?来评估AI聊天机器人模仿人类对话的能力,以及人类是否能区分AI和人类。旨在揭示人类和AI相互交织的不可避免的未来,设计并发布了一个在...
神经网络重建3D物体,英伟达发布Neuralangelo|CVPR 2023
?智源社区日报关注订阅? Digital Renaissance: NVIDIA Neuralangelo Research Reconstructs 3D Scenes 英伟达团队提出Neuralangelo,从2D视频重建3D大规模场...
伯克利|适用于长上下文大模型的分块并行Transformer
解决自注意力机制和大型前馈网络在Transformer中带来的内存需求问题,并且比之前的内存高效方法能处理2至4倍更长的序列,在语言建模和强化学习任务上进行的大...
透过神经科学视角探讨人工意识的可行性
透过神经科学视角探讨人工意识的可行性,对大型语言模型是否具有意识进行系统神经科学角度的探讨。采用系统神经科学的方法:从大型语言模型的结构、输入特征...