人工智障机器人终于来了点新活,这次会做粤菜了
2024-01-23 17:51

人工智障机器人终于来了点新活,这次会做粤菜了

本文来自微信公众号:果壳 (ID:Guokr42),作者:玛雅蓝,编辑:翻翻,题图来自:Standford University

文章摘要
斯坦福大学团队开发的全能家政机器人Mobile ALOHA能够炒菜做饭、收拾衣服、逗猫等,成功率达90%以上。谷歌DeepMind团队也发布了三个计算模型,提升了机器人的反应速度、表现和安全可靠性。

• 🔥 斯坦福大学团队开发的Mobile ALOHA机器人能够炒菜做饭,做出粤菜虾仁滑蛋、干贝烧鸡、蚝油生菜等。

• 🤖 谷歌DeepMind团队发布的AutoRT系统提高了机器人应对陌生场景的能力,同时操纵多达20台机器人。

• ⚡ 谷歌DeepMind团队的SARA-RT系统和RT-Trajectory模型大幅提升了数据处理速度和训练效率,帮助机器人学习更快更好。

之前有人吐槽,“本来AI应该给人端茶倒水,没想到AI都去画画唱歌”,还好2024开年惊喜不断,人工智障机器人终于来了点新活,在端茶倒水方面有了巨大突破。


一月初,斯坦福大学团队带着炒菜做饭、收拾衣服、逗猫的全能家政机器人闪亮登场,谷歌DeepMind旗下机器人团队也发布重磅更新。


斯坦福大学IRIS实验室团队发布的“家务全能”机器人Mobile ALOHA,只要50次训练就能掌握一项任务,成功率达90%以上,例如给手机充电、打绳结、用耳机。



在研究者的操作下,它还能完成更复杂的任务。在一段时长3分钟的视频中,机器人做了三道粤菜:虾仁滑蛋、干贝烧鸡、蚝油生菜。


老实说吧,我做的没它好|Stanford IRIS Lab, Youtube


打鸡蛋、煎虾仁、翻动鸡肉、加调味料、切菜、切蒜末……一看就是行家里手。


Stanford IRIS Lab, Youtube


浇花、洗衣服、泡咖啡、刮胡子,人能做的事它都能掺上一脚。



就在不久前,我们对机器人的印象还停留在人工智障的阶段,最强也不过就是波士顿动力的“打工狗”。怎么机器人一下子变得这么灵巧了?机器人上岗干家务的未来还会远吗?


Giphy


眼里有活,全部开源


ALOHA开发团队在论文中介绍,机器人双手操作的模仿学习此前没有得到广泛应用,主要有两方面原因:一是缺少易于获取、即插即用的全身远程操作设备,二是此前机器人在学习双手操作完成复杂任务方面表现不佳


ALOHA构造示意图 | 图片来自论文


为了解决这些问题,研究团队使用了市面上容易获取的部件,设计出这台尽可能复刻人类动作的机器人。他们在设计中还重点考虑了以下4个因素:


  • 机动性:行进速度与人类相近,达到1.42米每秒;


  • 稳定性:适应居家环境,在使用橱柜、搬动锅具的时候不翻倒;


  • 全身远程操作:机器臂和底座的每个自由度都能同时远程操控;


  • 不受限:搭载电源和计算机系统。


为了让机器人学会复杂的动作、学会应对训练中没有的突发状况,研究团队将模仿学习算法与静态数据进行协同训练(co-train),达到了不错的效果。


比如在机器人正要打开杯子的时候把杯子拿走,或者在它换电池的时候在旁边放上杂物,在受到干扰的情况下,机器人也能继续完成任务。


给你feed小青蛙|tonyzhaozh.github.io/aloha/


在搬椅子任务中,研究者只训练它搬动三把椅子,然后在测试时布置了五把椅子,机器人也能把它们全部摆好。这样眼里有活的机器人谁不心动!


ALOHA全部使用市面上的通用硬件设备搭建,成本只要3.2万美元(约合人民币23万元)。作为对比,波士顿动力的机器狗Spot发布时售价高达7.45万美元。目前市面上功能相似的操作机器人PR2和TIAGo售价高达20万美元。


通过增减硬件设备,你还可以进行个性化定制,最低只要2万美元(人民币14万元)就能搭建完成。


研究团队已经将代码开源,感兴趣的朋友们可以开始DIY挑战了。


更好、更快、更安全


或许是为了和斯坦福比高下,就在ALOHA发布的第二天,谷歌DeepMind团队一口气发布三个计算模型,借助人工智能的力量,让机器人反应更快、表现更好、更安全可靠。


此前在ChatGPT面世后不久,谷歌就宣布将大语言模型(LLM)和视觉语言模型(LVM)应用于机器人开发,用模型将大量训练录像翻译成机器语言,供系统学习。这次发布的AutoRT系统大幅提升了机器人应对陌生场景的能力,可同时操纵多达20台机器人,并能在人类辅助下同时运行52台机器人。


多机器人协同|https://auto-rt.github.io/static/videos/autort_time_lapse.mp4


SARA-RT系统则大幅提升了数据处理速度。它使用向上训练(up-training,暂译)技术,解决了数据输入增加后运算负担呈平方数增长的问题。此前,如果训练模型输入增加到2倍,例如增加一个传感器或调高分辨率,系统需要投入4倍的运算资源处理数据。应用SARA-RT后,数据处理负担线性增长,处理效率大幅提升。


RT-Trajectory模型能对训练录像自动标注视觉线索,提升训练效率,帮助机器人从人类操作录像甚至简笔画示意图中学习。



除此之外,谷歌DeepMind特别强调保护使用者的安全。DeepMind机器人在关节受力超过一定阈值时就会停止动作,并且所有使用中的机器人都处在掌控物理停机开关的人类监督员的视线之内。


这一设计的灵感来自科幻作家艾萨克·阿西莫夫(Isaac Asimov)提出的“机器人三定律”,其中第一条就是“机器人不得伤害人类”。此外,这些设计也能避免伤害宠物或弄坏家用电器。


在刚刚过去的2023年,我们见证了ChatGPT做表做图取代打工人,Midjourney拿下设计大奖让小画家下岗。2024,机器人领域的快速发展又将带来什么?它会包办家务和其他琐碎的劳动,给人类带来更多的闲暇时间,还是占领更多的岗位,让体力劳动者陷入失业危机?让我们拭目以待。


参考文献

[1] https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/

[2]https://mobile-aloha.github.io/

[3]https://tonyzhaozh.github.io/aloha/

[4]https://twitter.com/zipengfu/status/1742602881390477771

[5]https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/

[6]https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/


本文来自微信公众号:果壳 (ID:Guokr42),作者:玛雅蓝,编辑:翻翻

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定