DeepMind的研究人员将人工智能与一个复杂的机器人相结合,该机器人可以从100个演示中学习新任务。
RoboCat是一个开创性的机器人人工智能代理,它可以从最少100个演示中学习新任务,并通过自我生成的数据来提高其技能。
尽管它的名字,RoboCat是一个机器人手臂,旨在执行复杂的任务,如以特定顺序堆叠不同颜色的块。查看DeepMind下面的演示。
机器人创新的自我改进训练周期代表了机器人领域的重大突破。
RoboCat利用 DeepMind的多通道模型Gato,它可以跨模拟和物理环境处理语言、图像和动作。
在RoboCat的训练中,研究人员从执行数百项任务的各种机械臂上收集了大量图像序列和动作集。在最初的培训之后,RoboCat进入了一个“自我完善”的周期,处理新的任务,导致进一步的改进。
该循环由以下步骤组成:
- 收集100到1000个由人类操作的机械臂演示的新任务的演示。
- 微调RoboCat的新任务,以创建一个专门的代理。
- 然后,专门的代理将新任务或手臂练习大约10,000次,从而生成更多的训练数据。
- 演示和自行生成的数据都被整合到RoboCat现有的数据集中。
- 最后,使用增强数据集训练更新版本的RoboCat。
这种持续训练和自我改进的过程意味着RoboCat的数据集非常多样化。
RoboCat适应并从任务中学习
值得注意的是,RoboCat已被证明具有适应性,可以快速学习操作新的机械臂,其中一些机器臂的配置与最初的训练不同。
例如,虽然RoboCat最初的训练包括双指夹爪的手臂,但它成功地适应了更复杂的带有三指夹爪的手臂。
在一项实验中,在观察了1000个人工控制的演示后,RoboCat成功地用一个新的手臂拿起小齿轮86%的时间。它还适合解决需要精确和理解的复杂任务,例如从碗中提取正确的水果和解决形状匹配的难题。
RoboCat的能力不会停滞不前——它会随着学习而变得越来越有能力。
最初版本的RoboCat在每个任务学习500次演示后,成功率为36%,而最终版本的成功率提高了一倍多,达到74%。
RobotCat让我们朝着创造多功能的通用机器人更近了一步。快速学习、适应性和自我完善是构建与环境相融合的智能机器人的先决条件。
虽然RobotCat的Gato模型目前仅限于一只手臂,但这样的人工智能最终将控制多个肢体,感知并对环境做出反应。