真机智能刘智勇预测：2026年中国本体机器人厂商将收缩至5-8家，世界模型的因果推理能力是技术决胜点，"整机销售+服务费"模式将取代传统硬件销售。 --- ## 1. 视觉语言导航（VLN）技术的突破与价值 - **零样本泛化**：VLN技术无需预先建图，机器人可直接在新场景中导航，部署成本降低38%，解锁更多应用场景。 - **技术范式转变**：从SLAM（依赖静态地图）转向VLN（结合语义理解），动态适配能力更强，减少对高规格激光雷达的依赖。 - **代表性进展**：UniNavid、ETPNav等模型推动门到门配送成为可能，但导航成功率仍需提升。 --- ## 2. 世界模型的核心作用与瓶颈 - **三大提升**：世界模型增强长程规划、动态轨迹预测和数据生成能力，是VLN突破长程规划和动态适应的关键。 - **当前局限**：模型为黑盒不可微，缺少显式几何信息（如开门精准数据），需解决隐式神经表征问题。 - **未来潜力**：因果推理能力突破后，可大幅提升机器人安全性与行为可靠性。 --- ## 3. 数据与硬件的双重挑战 - **数据瓶颈**：真实数据采集成本高（3D标注比2D高一个量级），仿真数据覆盖不足，需结合真实数据、模拟生成和离线轨迹挖掘。 - **硬件制约**：灵巧手需高分辨率柔性触觉皮肤（解决盲按电梯问题），电机和执行器的耐疲劳性不足，影响开门等重复操作。 --- ## 4. 商业模式创新与行业收缩预测 - **模式转型**："整机销售+年服务费"组合可平衡收益与售后成本，按单收费（每单2-3元）或成新方向。 - **行业洗牌**：2026年中国本体厂商将缩减至5-8家，供应链成本是国内优势，但需在单一场景实现净利（非毛利）以形成数据飞轮。 --- ## 5. 2026年能力边界与技术决胜点 - **关键突破**：非结构化场景稳定作业（社交导航能力）和打破莫拉维克悖论（完成人类简单任务）。 - **竞争维度**：从单点技术转向系统效率，国际企业强于基础模型，国内企业需聚焦场景化盈利。

2026-01-09 13:37

“机器人一次性卖完太亏，”真机智能刘智勇：今年中国本体厂商将大淘汰，拼的是世界模型？

极客邦科技InfoQ

本文来自微信公众号： InfoQ ，作者：华卫，原文标题：《“机器人一次性卖完太亏！”真机智能刘智勇：今年中国本体厂商将大淘汰，拼的是世界模型？》

我们采访了真机智能董事长兼首席科学家刘智勇，听他讲述了视觉语言导航（VLN）技术的当前难题、具身智能领域在2025年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示，一旦世界模型的因果推理能力取得突破，无论是机器人的安全性还是行为和推理的安全性问题，都能得到很好的解决。

“2026年本体厂商肯定会收缩，估计中国最终只会剩下5到8家本体机器人公司。”他指出，核心是在某个单一场景实现盈利，不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式，如果只卖硬件，后续的售后压力会非常大，用户一次性付太多钱也承受不了。

下面是详细对话内容，以飨读者。

VLN和世界模型上“大分”

Q：2025年具身智能领域有哪些突破性进展让您印象深刻，包括技术、产业化和生态建设上？这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础？

刘智勇：我印象比较深刻的是VLN方向的相关进展。过去我们主要是以SLAM为核心的技术路线，但从去年到现在，涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题，我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里，它都能实现零样本泛化，自主完成导航任务。另外，像UniNavid、ETPNav、FSR-VLN这些代表性工作，也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式，转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。

从场景普及的角度来说，核心是我们不再需要预先建图了。这就意味着，把机器人放在任何新的位置上，它都能立刻开始工作，直接解锁了很多之前无法覆盖的场景。最关键的一点是，零样本能力等同于部署成本的大幅降低。部署成本降下来之后，整个成本结构就能适配场景化的盈利模式，这正是为场景普及奠定的核心基础。技术成熟后，前期的准备和部署工作会大幅减少，这也为未来的产业发展打下了很好的基础。

Q：具身智能的核心技术栈正在如何演变？2025年这一年有哪些值得关注的新范式或共识？

刘智勇：从算法角度来看，核心变化是从之前感知、决策、执行分离的多模块化范式，逐渐转向VLN或VLA的端到端统一范式。从数据角度来说，发展方向是从单纯的真实数据采集，逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变，从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识，原因很简单，不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹，还是弥补数据的corner case，世界模型都起到了不可或缺的作用。

Q：世界模型被寄予厚望，被认为是实现高级推理和规划的关键。现阶段来看，它对机器人实际能力的提升体现在何处？之后还有哪些方面的潜力？

刘智勇：现阶段来看，主要体现在三个方面。第一，机器人执行长程任务时容易陷入短视困境，而世界模型可以模拟未来的长程状态，对全局规划能力有非常重要的提升；第二，动态环境下静态地图容易失效，无法准确指引路径轨迹，世界模型能够预测动态物体的轨迹，让机器人的本地行动更安全；第三，世界模型能较好地生成相关数据，减少数据泛化鸿沟。我们认为，世界模型是VLN突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒，而非白盒可微。

Q：大模型的快速发展，为具身智能的“智能”部分带来了哪些质变？

刘智勇：从我们的实践来看，最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是SLAM方案，现在则转向了VLN范式。过去的SLAM方案存在几个明显的局限，一是方案本身不具备语义理解能力，二是依赖静态地图，必须预先建图才能使用，三是需要对特定的传感器做专门标定。而VLN范式完全不同，它可以结合语言和视觉实现语义层面的理解，同时能应对非静态环境，实现动态适配。更关键的是，这个方案不再依赖高规格的激光雷达，也不需要预先部署地图，成本和效率都实现了大幅优化。大模型的快速发展，推动技术范式从几何测量的SLAM转向学习增强的VLN，这正是带来质变的核心原因。行动、观测和语言本来属于三个空间，现在要把三个空间统一起来，这也是目前的核心难点。

大规模落地现在卡在哪儿？

Q：几乎所有专家都指出，高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境，仿真合成数据、人类视频数据等替代方案能走多远？“数据工厂”是可行的解决方案吗？

刘智勇：我们面临的主要数据瓶颈有两个，一是数据的场景覆盖不足，比如现在常用的数据集大多基于Mate Port 3D、Habitat、AI2THOR等构建，只包含固定的训练环境，场景覆盖肯定不够；二是做VLN的数据采集成本很高，有时需要3D数据采集，标注成本也比2D图像高出一个量级。对VLN来说，现在数据是完全不足的，既存在场景覆盖问题，又有成本高昂的问题。

目前，我们在采用多种数据解决方案。第一是采集真实数据，采集RGBD视频流，以及数字手套等，再结合人工标注指令，像Atomic和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成，比如借助模拟器搭载3D场景库，批量生成视觉语言轨迹三元组。第三是采用新范式，不用额外改动3D环境，通过改写人类标注数据的方式生成新样本，这是一种静态片段生成的新范式。另外，未来还有一种发展方向是离线数据、离线轨迹挖掘的方式，有点类似实行微克隆。

Q：当前的硬件如灵巧手、关节驱动、传感器等，在哪些方面最能满足机器人的技术需求？又在哪些方面构成了发展的主要制约？

刘智勇：要讲满足技术需求的地方，我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下，没办法开单元门、摁电梯，只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节，再加上一些触觉传感器，能让机器人具备开门、按电梯的能力，这是轮式机器人到人形机器人的一个巨大转变。

不过目前硬件也存在几方面的制约。第一，我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯，如果触觉不够灵敏，盲按的波动率大，成功率就会比较低。第二，门把手的种类太多了，如果机器人没有触觉反馈，根本没办法应对成千上万种门的情况，也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作，电机、执行器、丝杠这些部件的脆弱性，可能在我们的应用场景中被放大100倍。所以从硬件角度来讲，目前主要的制约就是开门要做得好、触觉要做得好这两点。

Q：目前为止，制约具身智能大规模落地应用难题还有哪些？

刘智勇：对于我们的VLN技术来说，主要有两方面的难题。第一是感知决策的延迟问题，这甚至可能是致命的。简单来说，长程规划和行动频率的匹配很关键，如果感知和决策环节出现延迟，机器人在开放环境中运作就会遇到很多麻烦，这就要求必须在端侧做好部署。第二是硬件性能短板，既要让硬件能灵敏地感知外部世界，又要保证它能反复进行操作，而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说，核心瓶颈是隐式神经表征，而非显式3D高斯，可能在开门和按键上缺少精准几何信息。

具身智能该告别“一锤子买卖”？

Q：面对这样的机遇与挑战，您们在接下来一年的战略重点和核心发力方向是什么？

刘智勇：真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的SLAM加轮式机器人的技术栈和方案，苏州真机则聚焦于VLN加人形机器人的技术栈及方案。

苏州真机接下来有两个关注重点，第一是通过视觉语言导航的方式，实现无需额外提前部署的门到门配送。过去部署成本太高了，大概占了整个机器人售价成本的38%左右。我们希望能实现零样本泛化，换句话说，就是让机器人能够直接理解环境，直接完成导航任务。第二是全身运动控制，要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的，哪怕是协作机器人也是保持自身不动去拉开门，这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制，依靠动态平衡的方法更泛化地解决开门的问题。

把这两个点结合起来，我们既能实现无需预先建图的门到门配送任务，同时又能解决开门和按电梯的任务。这两个方案结合之后，就可以实现最后五公里的门到门配送，既能开门、操作电梯，又能以无建图、无GPS的方式完成导航。室内本身没有GPS信号，但又需要实现导航，这时候视觉和语言理解的作用就非常关键了。

Q：除了直接销售机器人整机，具身智能未来的商业模式可能有哪些创新？

刘智勇：整机销售和租赁这两种方式都会存在。但我个人觉得，单纯的整机销售并不是很好的商业模式，更好的方式是“整机销售+每年服务费”的组合模式。如果只卖硬件，一次性卖完其实很亏，后续的售后压力会非常大。“整机销售+每年服务费”就比较合理，既能保证长期的最大收益，又能解决售后问题，还能让设备商一次性回本。通过这种组合模式，能把原本不赚钱的“卖铁生意”，变成能持续盈利的长期现金流生意。另一方面，用户一次性付太多钱确实承受不了。

除此之外，未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币，和达达这类上游公司合作，机器人完成一单就赚一笔费用。

本体厂商大收缩，要拼什么？

Q：到2026年，我们有望看到具身智能在能力边界上实现怎样的突破？整个具身智能领域的技术决胜点可能会是什么方面？

刘智勇：2026年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点，需要机器人具备一定的社交行为表现和自主导航能力。解决了之后，一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境，所以这会是一个重要突破。第二是突破莫拉维克悖论（Moravec's Paradox）。以往大家觉得，机器能完成人类觉得难的事，但难以完成人类觉得简单的事，而2026年可能机器人也能胜任这类任务，会在人类觉得简单的事情上取得突破。

至于技术决胜点，我认为有几个关键因素，其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破，无论是机器人的安全性还是行为和推理的安全性问题，都能得到很好的解决。

Q：2026年，全球具身智能公司的竞争情况将如何变化？中国公司与国际巨头各自的优势和赛点分别会在哪里？

刘智勇：2026年本体厂商肯定会收缩，马太效应会非常明显，估计中国最终只会剩下5到8家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。

中国和国际企业的优势不一样，国际公司的大模型技术更先进，基础模型能力更强，国内企业还处在追赶状态，但中国企业拥有供应链成本优势。另外竞争维度也在升级，现在大家可能还在追求单点技术的先进性，到了2026年，整体系统的效率会变得更重要。

至于赛点，我觉得核心是在某个单一场景实现盈利，不是毛利而是不依赖大量售后成本的净利。谁能做到这一点，谁就能形成数据飞轮，有了数据之后，模型和方法能力会进一步提升，之后再推进跨场景复制。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定