?智源社区日报关注订阅?
Nvidia团队包括该公司的机器学习总监兼加州理工学院教授Anima Anandkumar,他们创建了一个名为Voyager的Minecraft机器人,该机器人使用GPT-4来解决游戏中的问题。语言模型生成帮助代理探索游戏的目标,以及随着时间的推移提高机器人游戏技能的代码https://voyager.minedojo.org。
芯片制造商Nvidia的人工智能研究员Jim Fan与一些同事合作,设计了一种方法来设置强大的语言模型GPT-4——ChatGPT背后的“大脑”和越来越多的其他应用程序和服务——视频游戏《我的世界》。
该项目最新颖的部分是GPT-4生成的代码,以向Voyager添加行为。如果最初建议的代码不能完美运行,Voyager将尝试使用错误消息、游戏反馈和GPT-4生成的代码描述来完善它。
Voyager构建了一个代码库,研究人员创建的图表显示了与其他《我的世界》代理相比,它的能力有多强。旅行者获得的物品数量是旅行者的三倍多;探索的距离是旅行者旅行者者多一倍的物品;构建工具的速度是其他人工智能代理的15倍。Fan说,随着系统加入游戏中视觉信息的方式,这种方法在未来可能会得到改进。
我们介绍了Voyager,这是Minecraft中第一个由LLM驱动的体现性终身学习代理,它不断探索世界,获得各种技能,并在没有人类干预的情况下做出新的发现。
项目地址:https://voyager.minedojo.org
论文地址:https://arxiv.org/abs/2305.16291
作者:Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar
Voyager由三个关键部分组成:
1)最大化探索的自动课程,2)不断增长的可执行代码的技能库,用于存储和检索复杂的行为,以及3)一个新的迭代提示机制,包含环境反馈、执行错误和自我验证,用于程序改进。Voyager通过黑盒查询与GPT-4互动,这就绕过了对模型参数微调的需求。Voyager开发的技能在时间上是扩展的、可解释的和复合的,这使代理的能力迅速复合并减轻了灾难性的遗忘。从经验上看,Voyager显示出强大的内涵式终身学习能力,并在玩Minecraft时表现出非凡的熟练度。它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的SOTA快15.3倍。Voyager能够在一个新的Minecraft世界中利用学到的技能库,从头开始解决新的任务,而其他技术却难以普及。
构建具有普遍能力的具身代理,在开放的世界中不断探索、计划和发展新的技能,是人工智能界的一个巨大挑战。经典的方法是采用强化学习(RL)和模仿学习,这些方法在原始行动上运作,对于系统的探索、可解释性和概括性来说可能是个挑战。最近,基于大型语言模型(LLM)的代理取得了进展,利用预先训练好的LLM中封装的世界知识,生成一致的行动计划或可执行的政策。它们被应用于像游戏和机器人这样的体现性任务,以及没有体现性的NLP任务。然而,这些代理不是终身学习者,它们可以在较长的时间跨度内逐步获得、更新、积累和转移知识。
让我们考虑一下《Minecraft》作为一个例子。与人工智能中研究的大多数其他游戏不同,《Minecraft》没有强加一个预定的最终目标或固定的故事情节,而是提供了一个具有无限可能性的独特游乐场。一个有效的终身学习代理应该具有与人类玩家类似的能力:(1)根据其当前的技能水平和世界状态提出合适的任务,例如,如果它发现自己处于沙漠而不是森林,就会在打铁前学会收获沙子和仙人掌;(2)根据环境反馈完善技能,并将掌握的技能存入记忆,以便将来在类似情况下重复使用(例如,打僵尸与打蜘蛛类似);(3)不断探索世界,以自我驱动的方式寻找新任务。
我们介绍Voyager,这是第一个由LLM驱动的体现终身学习的代理,可以在Minecraft中驱动探索,掌握广泛的技能,并在没有人类干预的情况下不断地做出新的发现。Voyager是通过三个关键模块实现的: 1)最大化探索的自动课程;2)存储和检索复杂行为的技能库;以及3)新的迭代提示机制,生成可执行的代码用于具体控制。我们选择使用代码作为行动空间,而不是低级的运动指令,因为程序可以自然地表示时间上的扩展和组成的行动,这对Minecraft中的许多长线任务来说是必不可少的。Voyager通过提示和上下文学习与黑盒子LLM(GPT-4)互动。我们的方法避开了对模型参数访问和明确的基于梯度的训练或微调的需要。
相关资讯:https://www.wired.com/story/fast-forward-gpt-4-minecraft-chatgpt/