谷歌的人工智能将视觉语言转化为机器人行动

117 0 0

谷歌展示了其最新的视觉语言动作（VLA）机器人模型机器人Transformer 2（RT—2）的一些令人兴奋的测试结果。

最近的大部分人工智能讨论都集中在大型语言模型上，比如ChatGPT和Llama。这些模型提供的响应虽然有用，但仍保留在设备屏幕上。通过RT—2，谷歌正在将人工智能的力量带到物理世界。一个自我学习机器人可能很快成为我们日常生活的一部分的世界。

机器人的灵活性有了很大的提高，但它们仍然需要非常具体的编程指令来完成即使是简单的任务。当任务发生变化时，即使是轻微的变化，程序也需要改变。

通过RT—2，谷歌创建了一个模型，使机器人能够将看到的东西与听到的单词结合起来进行分类和学习。然后，它根据收到的指令进行推理，并采取实际行动作为回应。

使用LLM，一个句子被分解成令牌，基本上是一口大小的单词块，使人工智能能够理解句子。谷歌采用了这一原则，并将机器人响应命令所需的动作标记化。

例如，带有夹爪的机械臂的运动将被分解为x和y位置或旋转变化的符号。

在过去，机器人通常需要第一手经验才能执行动作。但有了我们新的视觉-语言-行动模型RT-2，他们现在可以从网络上的文本和图像中学习，来处理新的和复杂的任务。了解更多https://t.co/4DSRwUHhwg↓

– Google（@ Google）2023年7月28日

RT-2能让机器人做什么？

能够理解它所看到和听到的，并具有思想链推理意味着机器人不需要为新任务编程。

谷歌在DeepMind中给出的一个例子博客文章RT—2 “决定哪种物体可以用作即兴的锤子（一块石头），或者哪种饮料最适合疲劳的人（能量饮料）。

在谷歌进行的测试中，它让机械臂和抓取器通过一系列要求，这些要求需要语言理解、视觉和推理，才能采取适当的行动。例如，当机器人拿着两袋薯片放在桌子上，其中一袋略有突出时，机器人被告知“捡起即将从桌子上掉下来的袋子”。

这听起来可能很简单，但拿起正确的袋子所需的上下文意识在机器人领域是开创性的。

为了解释RT-2比普通的LLMS先进了多少，另一个谷歌博客解释说：“机器人需要能够识别上下文中的苹果，区分它和红球，理解它的样子，最重要的是，知道如何捡起它。”

虽然还处于早期阶段，但家用或工业机器人在不断变化的环境中帮助完成各种任务的前景令人兴奋。国防应用几乎肯定也受到了关注。

谷歌的机器人手臂并不总是正确的，它有一个大大的红色紧急关闭按钮，以防它出现故障。让我们希望未来的机器人也能有类似的东西，以防有一天他们对老板不满意。

文章版权归作者所有，未经允许请勿转载。

yundic

530

yundic

337

yundic

366

yundic

141

yundic

349

yundic

386

暂无评论...