11-5

王兴兴谈ChatGPT具身智能:能在陌生场景完成80%任务

新闻图片

11月5日,在第八届虹桥国际经济论坛-人形机器人创新发展合作分论坛上,宇树科技创始人兼CEO王兴兴提出具身智能'ChatGPT时刻'的明确定义:在80%的陌生生活场景中,机器人能够通过自然语言指令完成80%左右的任务。他预测这一突破性技术里程碑可能在未来1-2年内实现,谁先达到这一标准谁将成为全球最领先的具身智能企业。

5 来源
具身智能'ChatGPT时刻'的明确定义

王兴兴在论坛上详细阐述了具身智能’ChatGPT时刻’的具体标准:‘某一天我们公司或者全球的某一个公司、实验室能达到在80%的陌生的生活场景中,如果给机器人发送语音或文字,机器人大概能完成80%左右的任务。’[1]

他进一步解释道,这一时刻将表现为:‘一台人形机器人能够在一个从未见过的真实场景中,仅凭自然语言指令就完成任务——例如’帮我拿杯水’或’请把这份资料交给那位记者朋友’,且无需任何预训练或预设环境,就能自主识别、规划与执行,这样的系统若能实现约80%的成功率,将是一次突破性的技术飞跃。'[1]

王兴兴强调,这一能力的实现将标志着人形机器人领域迎来类似于人工智能的’ChatGPT时刻’,是极其重要的里程碑目标。他表示:‘如果到明年这个时候,谁能在未来一两年内实现这一突破,谁就是全球最领先的具身智能。’[1][2]

当前具身智能发展现状与挑战

王兴兴指出,当前人形机器人的核心发展仍取决于具身智能大模型的进展速度,而这一进展’稍微有点慢了’。他坦言:'相对去年来说,今年深度强化学习的全身运控的进步非常明显,但在具身大模型,‘端到端能干活’的技术进步稍微慢了一点。’[1]

在王兴兴看来,具身机器人目前的发展阶段类似于ChatGPT发布前的1-3年左右,‘大家已经发现了方向,但还没有做成可以突破临界点的事情。’[1]他认为,目前全世界做AI很多还是有概率成分,‘看运气,有些运气好的就做出来了’,而真正的突破需要达到80%左右的稳定成功率。[2]

王兴兴表示:'目前人形机器人,包括具身智能,最关键的还是机器人大模型的进展速度。'他补充道,虽然对人形机器人的前景较乐观,但机器人大模型进展比想象中缓慢,还没有达到临界值。[3]

实现突破的关键路径与技术重点

针对如何加速实现具身智能’ChatGPT时刻’,王兴兴提出了三个关键问题,其中模型架构创新比数据更为重要。他表示:‘目前在模型结构上大家做了很多尝试,发现泛化能力不够,还需要创新。’[1]

王兴兴澄清了一个行业误区:‘人形机器人大规模应用的最大问题,并不是硬件,而是具身智能。虽然硬件在量产工程化上仍有提升空间,但具身智能问题更为明显,还无法驱动机器人自主地完成任务,这背后的原因并不是大家普遍关注的数据问题,而是模型架构问题。’[2]

他进一步解释道:'大家也需要收集更大规模的数据、质量更好的数据。但目前,对数据的采集、对数据质量的评判还非常困难。'王兴兴认为,未来2到5年,智能机器人技术的重心是解决模型架构问题,而非单纯增加数据量。[1][2]

行业前景与时间预测

对于具身智能’ChatGPT时刻’的到来时间,王兴兴给出了相对乐观的预测:‘如果进展快的话,可能未来的1-2年或者2-3年,我们就能实现这一目标,最慢的话3-5年也有很大概率能实现。’[1]他特别希望’在明年或者后年哪一天,宇树或者全世界哪一家公司实验室能达到的效果是在陌生的生活场景中,如果你给机器人发送语音或文字,机器人大概能实现80%的任务,且这个场景完全没有预训练过。'[2]

谈及行业整体发展,王兴兴表示:'今年机器人产业非常火热。'他乐观估计,‘今年全国智能机器人领域平均应该有接近100%增速’,‘在个人相对乐观的估计下,今年全国智能机器产业平均每家公司增长约为50%—100%。’[3][4]有数据显示,今年中国工业机器人对外出口增长速度超过51%,预计智能机器人的增速更快。[4]

王兴兴总结道:'如果明后年谁能把上述目标实现了,毋庸置疑应该是全球最领先的具身智能AI模型。'这一观点为行业指明了明确的技术突破方向和时间表。[2]

本内容由AI生成