标签:论文

Google DeepMind|更大、更好、更快:具有人类水平效率的人类水平Atari游戏

实现在Atari 100K基准测试中超越人类水平的性能,同时提高计算效率和样本利用率,介绍了一种基于价值估计的强化学习智能体(BBF),通过扩展用于价值估计的神经...

陈丹琦等|微调语言模型内存高效的零阶优化器MeZO,内存减少多达12倍

本文旨在介绍一种用于fine-tuning语言模型(LM)的低内存优化器——MeZO。本文提出了一个用于微调语言模型(LM)的内存高效的零阶优化器(MeZO)。MeZO采用经典...

艾伦研究院|SwiftSage:面向复杂交互式任务基于快思考和慢思考的生成式智能体

面向复杂交互式任务基于快思考和慢思考的生成式智能体,旨在优化复杂互动推理任务的行动规划。SWIFTSAGE结合了行为克隆和大型语言模型(LLM)提示的优势,SWIFT...

北大|思维链如何释放语言模型的隐藏能力

思维链提示(CoT)是大模型涌现中最神秘的现象之一,尤其在解决数学推理和决策问题中取得了惊艳效果。北大的几位研究者证明了CoT在实现大语言模型(LLM)推理...

符尧等|思想链中心:持续努力衡量大型语言模型的推理性能

随着大型语言模型(LLM)的不断发展,这是一个关于大型语言模型多步推理能力的开源评估套件,我们观察到复杂的推理可能是较弱和更强的LLM之间的关键区别,(2...

大语言模型时代NLP研究,14个领域22位博士生建议汇总

博士生的大语言模型时代NLP研究建议。解决当前关于自然语言处理(NLP)研究领域的误解和困惑,避免将整个NLP领域仅仅局限于大型语言模型(LLM),通过编译一份梳...

图神经网络也能用作CV骨干模型,华为诺亚ViG架构媲美CNN、Transformer

华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的...

强化学习图鉴|你与最优策略之间,可能还差一本离线强化学习秘籍

离线强化学习是利用预先收集的大规模静态数据集来训练强化学习智能体的关键,探讨了离线强化学习的训练过程以及其和类似概念的异同。同时本文也解释了经典强...

伯克利|Humans in 4D:基于Transformer的视频人体重建和跟踪

基于Transformer的视频人体重建和跟踪。提出了一种基于Transformer的网络架构HMR 2.0和综合的视频跟踪系统4DHumans:实现了高质量的人体重建和跟踪,并在动作...

伯克利&微软|用GPT-4进行可控的文本-图像生成

目前的文本到图像生成模型往往难以遵循文本指令,在生成代码片断以图形方式勾勒出文本输入方面表现出显著的精确性,用GPT-4生成的程序性草图来指导基于扩散的...
1 2 3 4 5 14