真机智能刘智勇预测:2026年中国本体机器人厂商将收缩至5-8家,世界模型的因果推理能力是技术决胜点,"整机销售+服务费"模式将取代传统硬件销售。 --- ## 1. 视觉语言导航(VLN)技术的突破与价值 - **零样本泛化**:VLN技术无需预先建图,机器人可直接在新场景中导航,部署成本降低38%,解锁更多应用场景。 - **技术范式转变**:从SLAM(依赖静态地图)转向VLN(结合语义理解),动态适配能力更强,减少对高规格激光雷达的依赖。 - **代表性进展**:UniNavid、ETPNav等模型推动门到门配送成为可能,但导航成功率仍需提升。 --- ## 2. 世界模型的核心作用与瓶颈 - **三大提升**:世界模型增强长程规划、动态轨迹预测和数据生成能力,是VLN突破长程规划和动态适应的关键。 - **当前局限**:模型为黑盒不可微,缺少显式几何信息(如开门精准数据),需解决隐式神经表征问题。 - **未来潜力**:因果推理能力突破后,可大幅提升机器人安全性与行为可靠性。 --- ## 3. 数据与硬件的双重挑战 - **数据瓶颈**:真实数据采集成本高(3D标注比2D高一个量级),仿真数据覆盖不足,需结合真实数据、模拟生成和离线轨迹挖掘。 - **硬件制约**:灵巧手需高分辨率柔性触觉皮肤(解决盲按电梯问题),电机和执行器的耐疲劳性不足,影响开门等重复操作。 --- ## 4. 商业模式创新与行业收缩预测 - **模式转型**:"整机销售+年服务费"组合可平衡收益与售后成本,按单收费(每单2-3元)或成新方向。 - **行业洗牌**:2026年中国本体厂商将缩减至5-8家,供应链成本是国内优势,但需在单一场景实现净利(非毛利)以形成数据飞轮。 --- ## 5. 2026年能力边界与技术决胜点 - **关键突破**:非结构化场景稳定作业(社交导航能力)和打破莫拉维克悖论(完成人类简单任务)。 - **竞争维度**:从单点技术转向系统效率,国际企业强于基础模型,国内企业需聚焦场景化盈利。
“机器人一次性卖完太亏,”真机智能刘智勇:今年中国本体厂商将大淘汰,拼的是世界模型?
2026-01-09 13:37

“机器人一次性卖完太亏,”真机智能刘智勇:今年中国本体厂商将大淘汰,拼的是世界模型?

本文来自微信公众号: InfoQ ,作者:华卫,原文标题:《“机器人一次性卖完太亏!”真机智能刘智勇:今年中国本体厂商将大淘汰,拼的是世界模型?》


我们采访了真机智能董事长兼首席科学家刘智勇,听他讲述了视觉语言导航(VLN)技术的当前难题、具身智能领域在2025年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示,一旦世界模型的因果推理能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。


“2026年本体厂商肯定会收缩,估计中国最终只会剩下5到8家本体机器人公司。”他指出,核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式,如果只卖硬件,后续的售后压力会非常大,用户一次性付太多钱也承受不了。


下面是详细对话内容,以飨读者。


VLN和世界模型上“大分”


Q:2025年具身智能领域有哪些突破性进展让您印象深刻,包括技术、产业化和生态建设上?这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础?


刘智勇:我印象比较深刻的是VLN方向的相关进展。过去我们主要是以SLAM为核心的技术路线,但从去年到现在,涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题,我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里,它都能实现零样本泛化,自主完成导航任务。另外,像UniNavid、ETPNav、FSR-VLN这些代表性工作,也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式,转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。


从场景普及的角度来说,核心是我们不再需要预先建图了。这就意味着,把机器人放在任何新的位置上,它都能立刻开始工作,直接解锁了很多之前无法覆盖的场景。最关键的一点是,零样本能力等同于部署成本的大幅降低。部署成本降下来之后,整个成本结构就能适配场景化的盈利模式,这正是为场景普及奠定的核心基础。技术成熟后,前期的准备和部署工作会大幅减少,这也为未来的产业发展打下了很好的基础。


Q:具身智能的核心技术栈正在如何演变?2025年这一年有哪些值得关注的新范式或共识?


刘智勇:从算法角度来看,核心变化是从之前感知、决策、执行分离的多模块化范式,逐渐转向VLN或VLA的端到端统一范式。从数据角度来说,发展方向是从单纯的真实数据采集,逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识,原因很简单,不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹,还是弥补数据的corner case,世界模型都起到了不可或缺的作用。


Q:世界模型被寄予厚望,被认为是实现高级推理和规划的关键。现阶段来看,它对机器人实际能力的提升体现在何处?之后还有哪些方面的潜力?


刘智勇:现阶段来看,主要体现在三个方面。第一,机器人执行长程任务时容易陷入短视困境,而世界模型可以模拟未来的长程状态,对全局规划能力有非常重要的提升;第二,动态环境下静态地图容易失效,无法准确指引路径轨迹,世界模型能够预测动态物体的轨迹,让机器人的本地行动更安全;第三,世界模型能较好地生成相关数据,减少数据泛化鸿沟。我们认为,世界模型是VLN突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒,而非白盒可微。


Q:大模型的快速发展,为具身智能的“智能”部分带来了哪些质变?


刘智勇:从我们的实践来看,最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是SLAM方案,现在则转向了VLN范式。过去的SLAM方案存在几个明显的局限,一是方案本身不具备语义理解能力,二是依赖静态地图,必须预先建图才能使用,三是需要对特定的传感器做专门标定。而VLN范式完全不同,它可以结合语言和视觉实现语义层面的理解,同时能应对非静态环境,实现动态适配。更关键的是,这个方案不再依赖高规格的激光雷达,也不需要预先部署地图,成本和效率都实现了大幅优化。大模型的快速发展,推动技术范式从几何测量的SLAM转向学习增强的VLN,这正是带来质变的核心原因。行动、观测和语言本来属于三个空间,现在要把三个空间统一起来,这也是目前的核心难点。


大规模落地现在卡在哪儿?


Q:几乎所有专家都指出,高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境,仿真合成数据、人类视频数据等替代方案能走多远?“数据工厂”是可行的解决方案吗?


刘智勇:我们面临的主要数据瓶颈有两个,一是数据的场景覆盖不足,比如现在常用的数据集大多基于Mate Port 3D、Habitat、AI2THOR等构建,只包含固定的训练环境,场景覆盖肯定不够;二是做VLN的数据采集成本很高,有时需要3D数据采集,标注成本也比2D图像高出一个量级。对VLN来说,现在数据是完全不足的,既存在场景覆盖问题,又有成本高昂的问题。


目前,我们在采用多种数据解决方案。第一是采集真实数据,采集RGBD视频流,以及数字手套等,再结合人工标注指令,像Atomic和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成,比如借助模拟器搭载3D场景库,批量生成视觉语言轨迹三元组。第三是采用新范式,不用额外改动3D环境,通过改写人类标注数据的方式生成新样本,这是一种静态片段生成的新范式。另外,未来还有一种发展方向是离线数据、离线轨迹挖掘的方式,有点类似实行微克隆。


Q:当前的硬件如灵巧手、关节驱动、传感器等,在哪些方面最能满足机器人的技术需求?又在哪些方面构成了发展的主要制约?


刘智勇:要讲满足技术需求的地方,我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下,没办法开单元门、摁电梯,只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节,再加上一些触觉传感器,能让机器人具备开门、按电梯的能力,这是轮式机器人到人形机器人的一个巨大转变。


不过目前硬件也存在几方面的制约。第一,我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯,如果触觉不够灵敏,盲按的波动率大,成功率就会比较低。第二,门把手的种类太多了,如果机器人没有触觉反馈,根本没办法应对成千上万种门的情况,也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作,电机、执行器、丝杠这些部件的脆弱性,可能在我们的应用场景中被放大100倍。所以从硬件角度来讲,目前主要的制约就是开门要做得好、触觉要做得好这两点。


Q:目前为止,制约具身智能大规模落地应用难题还有哪些?


刘智勇:对于我们的VLN技术来说,主要有两方面的难题。第一是感知决策的延迟问题,这甚至可能是致命的。简单来说,长程规划和行动频率的匹配很关键,如果感知和决策环节出现延迟,机器人在开放环境中运作就会遇到很多麻烦,这就要求必须在端侧做好部署。第二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说,核心瓶颈是隐式神经表征,而非显式3D高斯,可能在开门和按键上缺少精准几何信息。


具身智能该告别“一锤子买卖”?


Q:面对这样的机遇与挑战,您们在接下来一年的战略重点和核心发力方向是什么?


刘智勇:真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的SLAM加轮式机器人的技术栈和方案,苏州真机则聚焦于VLN加人形机器人的技术栈及方案。


苏州真机接下来有两个关注重点,第一是通过视觉语言导航的方式,实现无需额外提前部署的门到门配送。过去部署成本太高了,大概占了整个机器人售价成本的38%左右。我们希望能实现零样本泛化,换句话说,就是让机器人能够直接理解环境,直接完成导航任务。第二是全身运动控制,要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的,哪怕是协作机器人也是保持自身不动去拉开门,这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题。


把这两个点结合起来,我们既能实现无需预先建图的门到门配送任务,同时又能解决开门和按电梯的任务。这两个方案结合之后,就可以实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无GPS的方式完成导航。室内本身没有GPS信号,但又需要实现导航,这时候视觉和语言理解的作用就非常关键了。


Q:除了直接销售机器人整机,具身智能未来的商业模式可能有哪些创新?


刘智勇:整机销售和租赁这两种方式都会存在。但我个人觉得,单纯的整机销售并不是很好的商业模式,更好的方式是“整机销售+每年服务费”的组合模式。如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。“整机销售+每年服务费”就比较合理,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。通过这种组合模式,能把原本不赚钱的“卖铁生意”,变成能持续盈利的长期现金流生意。另一方面,用户一次性付太多钱确实承受不了。


除此之外,未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币,和达达这类上游公司合作,机器人完成一单就赚一笔费用。


本体厂商大收缩,要拼什么?


Q:到2026年,我们有望看到具身智能在能力边界上实现怎样的突破?整个具身智能领域的技术决胜点可能会是什么方面?


刘智勇:2026年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点,需要机器人具备一定的社交行为表现和自主导航能力。解决了之后,一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境,所以这会是一个重要突破。第二是突破莫拉维克悖论(Moravec's Paradox)。以往大家觉得,机器能完成人类觉得难的事,但难以完成人类觉得简单的事,而2026年可能机器人也能胜任这类任务,会在人类觉得简单的事情上取得突破。


至于技术决胜点,我认为有几个关键因素,其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。


Q:2026年,全球具身智能公司的竞争情况将如何变化?中国公司与国际巨头各自的优势和赛点分别会在哪里?


刘智勇:2026年本体厂商肯定会收缩,马太效应会非常明显,估计中国最终只会剩下5到8家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。


中国和国际企业的优势不一样,国际公司的大模型技术更先进,基础模型能力更强,国内企业还处在追赶状态,但中国企业拥有供应链成本优势。另外竞争维度也在升级,现在大家可能还在追求单点技术的先进性,到了2026年,整体系统的效率会变得更重要。


至于赛点,我觉得核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,有了数据之后,模型和方法能力会进一步提升,之后再推进跨场景复制。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定