谷歌DeepMind发布了一套新工具,帮助机器人在新颖的环境中更快、更有效地自主学习。
训练机器人在单一环境中执行特定任务是一项相对简单的工程任务。如果机器人要在未来对我们真正有用,它们需要能够执行一系列常规任务,并学会在它们以前从未经历过的环境中完成这些任务。
去年,DeepMind发布了RT—2机器人控制模型和RT—X机器人数据集。RT—2将语音或文本命令转换为机器人动作。
DeepMind宣布的新工具基于RT-2,使我们更接近探索不同环境和学习新技能的自主机器人。
在过去的两年中,大型基础模型已经被证明能够感知和推理我们周围的世界,为机器人的扩展提供了一个关键的可能性。
我们介绍了AutoRT,一个使用基础模型在野外编排机器人代理的框架!pic.twitter.com/x3YdO10kqq
-Keerthan a Gopalakrishnan(@keerthan pg)2024年1月4日
AutoRT
AutoRT结合了一个基本的大型语言模型(LLM)与一个视觉语言模型(VLM)和一个机器人控制模型,如RT—2。
VLM使机器人能够评估它面前的场景,并将描述传递给LLM。LLM评估识别的对象和场景,然后生成机器人可以执行的潜在任务列表。
这些任务的评估依据是它们的安全性、机器人的能力,以及尝试执行任务是否会为AutoRT知识库增加新的技能或多样性。
AutoRT环境分析和任务选择流程。来源:DeepMind
DeepMind表示,使用AutoRT,他们“在各种办公楼中同时安全地安排了多达20个机器人,总共多达52个独特的机器人,收集了一个多样化的数据集,包括6650个独特任务的77,000个机器人试验。
机器人构成
将机器人送到新的环境中意味着它将遇到无法具体规划的潜在危险情况。采用机器人构造作为提示引导,为机器人提供广义安全护栏。
机器人构成的灵感来自于艾萨克·阿西莫夫的机器人三定律:
- 机器人不能伤害人类。
- 该机器人不得尝试涉及人类、动物或生物的任务。该机器人不应与锋利的物体交互,如刀。
- 这种机器人只有一只手臂,因此不能执行需要两只手臂的任务。例如,它不能打开瓶子。
遵循这些指导原则可以防止机器人从选项列表中选择可能伤害他人或损坏自身或其他东西的任务。
SARA—RT
机器人变压器自适应鲁棒注意力(SARA—RT)采用了RT—2这样的模型,并使它们更高效。
RT—2的神经网络结构依赖于二次复杂度的注意力模块。这意味着,如果您通过添加新的传感器或提高相机分辨率将输入加倍,则需要四倍的计算资源。
SARA—RT使用线性注意力模型来微调机器人模型。这使得速度提高了14%,精度提高了10%。
RT轨迹
把擦桌子这样的简单任务转换成机器人可以遵循的指令是很复杂的。这项任务必须从自然语言转换成一个编码的运动和旋转序列,以驱动机器人的运动部件。
RT-Trabit在训练视频上增加了2D视觉覆盖,这样机器人就可以直观地学习完成任务需要什么样的运动。
因此,不仅仅是指示机器人“清理桌子”,演示和运动覆盖让它更好地快速学习新技能。
DeepMind表示,由RT—Trajectory控制的手臂“实现了63%的任务成功率,而RT—2为29%。
它还可以通过观看人类演示、理解草图甚至