谷歌Deepmind｜RoboCat：一个自我改进的机器人代理

大模型2年前 (2023)发布智源社区

726 0 0

?智源社区日报关注订阅?

新的基金会代理学习操作不同的机器人手臂，从只需100个演示中解决任务，并从自生成的数据中改进。

机器人正在迅速成为我们日常生活的一部分，但它们通常只被编程为很好地执行特定任务。虽然利用人工智能的最新进展可能导致机器人在更多方面提供帮助，但构建通用机器人的进展较慢，部分原因是收集现实世界训练数据所需的时间。

我们的最新论文介绍了机器人学自我改进的人工智能代理RoboCat，该代理学习在不同手臂上执行各种任务，然后自行生成新的训练数据以改进其技术。

谷歌Deepmind｜RoboCat：一个自我改进的机器人代理

之前的研究已经探索了如何开发能够大规模学习多任务的机器人，并将对语言模型的理解与辅助机器人的现实世界能力相结合。RoboCat是第一个解决和适应多个任务的代理，并在不同的真实机器人中做到这一点。

RoboCat的学习速度比其他最先进的型号快得多。它只需100个演示即可完成一项新任务，因为它从庞大而多样化的数据集中汲取。这种能力将有助于加速机器人研究，因为它减少了对人类监督培训的需求，并且是创建通用机器人的重要一步。

RoboCat如何改进自己

RoboCat基于我们的多模态模型Gato（西班牙语为“猫”），它可以在模拟和物理环境中处理语言、图像和操作。我们将Gato的架构与各种机器人手臂的图像和动作序列的大型训练数据集相结合，解决了数百个不同的任务。

在第一轮培训之后，我们推出了RoboCat进入“自我完善”培训周期，其中包含一系列以前从未见过的任务。学习每项新任务都遵循五个步骤：

使用由人类控制的机器人手臂，收集100-1000个新任务或机器人的演示。
在这个新的任务/手臂上微调RoboCat，创建一个专门的分拆代理。
衍生代理对这项新任务/手臂的实践平均10,000次，生成更多的训练数据。
将演示数据和自生成数据整合到RoboCat的现有训练数据集中。
在新的训练数据集上训练新版本的RoboCat。