斯坦福大学的研究人员已经改进了他们的静态ALOHA机器人,建立了一个完全移动的版本,可以接受训练来执行家庭任务。
要让机器人在一系列通用任务中发挥作用,它需要能够四处移动,并能对手臂进行全方位的精确运动。我们已经看到了一些令人印象深刻的机器人演示,比如特斯拉的擎天柱,但它们通常很贵,或者买不到。
去年,Tony Zhao带领一个团队开发了ALOHA,这是一个低成本开源硬件系统,用于控制双手或双臂机器人。ALOHA功能的第一次演示令人印象深刻,但机器人是静态的,只在桌面上操作它前面的项目。
通过Mobile ALOHA,赵和傅紫鹏领导的团队创造了一个机器人,可以在像家庭这样的复杂环境中导航,以开辟一系列新的应用。
机器人能够做饭、擦掉洒在柜台上的葡萄酒、整齐地摆放椅子,或者叫电梯。
其中一些可能看起来微不足道,但让机器人做像叫电梯这样的事情并不容易。它需要从可能不同的起点导航到电梯,准确定位一个2cmx2cm的按钮,以适当的力度按下按钮,然后进入电梯。
模仿学习
机器人学习新技能的关键是从人类示范中模仿学习的过程。通常,这是使用视频或数据集,如谷歌的RT—X。在Mobile ALOHA中,研究人员使用了这些数据集,但也采取了不同的方法。机器人配备了一个接口,允许操作员被拴在它上,这样操作员就可以在完成任务的同时控制机器人。
在演示一项任务50次后,可以移除系绳接口,Mobile ALOHA将成功完成任务高达90%的时间。
模仿学习在教授机器人新技能方面非常有帮助,但它也有自己的一系列挑战,特别是在需要高精度的领域。Mobile ALOHA使用了赵的团队去年开发的一种名为Action Chunk with Transformers(ACT)的新算法。
ACT算法通过预测块中的动作来提高效率,从而降低了任务的复杂度。
在Mobile ALOHA中,研究人员表示,他们是“第一个发现与静态操作数据集的协同训练提高了移动操作策略的性能和数据效率的人。
这意味着用静态机器人创建的大量现有数据集在训练移动机器人方面也非常有用。
我几天前不是跟你说过吗?2024年是机器人年。Mobile-Aloha是一个开源的机器人硬件,它可以灵活地完成双手任务,比如做饭(通过人类的遥操作)。很快,硬件将不再是我们追求人类水平的瓶颈,…Pic.twitter.com/vMi3XkqKeh
– Jim Fan(@ DrJimFan)2024年1月4日
交通便利,价格实惠
尽管演示令人印象深刻,但现成的硬件和解决方案的低成本使Mobile ALOHA特别有趣。
该机器人由一台普通笔记本电脑控制,配备Nvidia 3070 Ti GPU(8GB VRAM)和Intel i7—12800H处理器。笔记本电脑接收来自三个罗技C922x RGB网络摄像头的视频流,每个摄像头的分辨率为480 × 640。
该机器人由1.26kWh的电池供电,该电池还用作14 kg的平衡配重,以防止机器人翻倒。
Mobile ALOHA的总账单为32,000美元。考虑到这是一个原型,这还不错。如果它投入生产,Mobile ALOHA可能比这便宜得多。事实上,它是开源的,意味着很快可能会为该平台创建多个硬件开发,从而进一步降低成本。
马斯克(Elon Musk)预测,特斯拉的Optimus机器人最终零售价将在2万美元左右。特斯拉的网站上仍然没有“添加到购物车”按钮,尽管无论你愿意支付多少钱。
有了Mobile ALOHA,我们现在有了一个很好的软件和硬件解决方案,暗示我们拥有机器人管家比我们想