英伟达GTC 2026显示机器人技术正减少对语言等显式中间层的依赖,通过直接感知-动作映射提升响应速度,同时保持性能。这一趋势由仿真能力、算力提升和数据闭环机制共同推动。 ## 1. 机器人技术减少显式中间层依赖 - 传统VLA模型依赖语言作为任务分解中间层,导致延迟和误差积累,新版系统让感知直接参与动作生成。 - 世界模型领域(如Fast-WAM论文)验证移除推理阶段的"未来想象"步骤后性能影响微小,但延迟降低4倍至190毫秒。 ## 2. 中间层内化背后的技术驱动 - 大规模仿真(如Isaac Sim)和数据生成使端到端训练成为可能,减少对昂贵真实数据的依赖。 - GPU算力提升和时序Transformer等模型结构进步,支持隐式决策模型在统一表示空间中运行。 - 数据闭环机制从人工标注转向交互反馈,削弱了中间层的必要性。 ## 3. 工程化取舍与挑战 - 优势:响应速度提升,结构更紧凑(如英伟达演示的神经策略直接输出关节控制信号)。 - 代价:可解释性下降,调试转向数据与训练过程,泛化能力仍受限于训练分布。 - 本质转向:从"理解优先"到"控制优先",语言和未来想象退居为训练工具而非实时决策要素。
机器人正在抛弃语言?GTC2026给出的真实答案
2026-03-19 17:27

机器人正在抛弃语言?GTC2026给出的真实答案

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《机器人正在抛弃语言?GTC 2026 给出的真实答案》


在这次GTC 2026上,黄仁勋在演讲中带来了迪士尼的经典IP雪宝机器人,来跟大家现场互动。


而雪宝的背后,其实也隐藏了英伟达面向机器人的一整套技术更新,包括新版Isaac Platform、多模态基础模型,以及进一步强化仿真与现实耦合的训练框架。


这些系统延续了过去几年英伟达在机器人领域的积累,但在多个演示中,可以看到一个更具体的工程变化,机器人系统正在减少对「显式中间层」的依赖,让感知更直接地参与动作生成,提升响应速度。


在传统的VLA模型中,机器人通常是在接收到感知信息后,利用显式语言来理解任务,再拆解为动作序列,语言在其中起到了中间层的作用。


而现在,一部分新的路径开始对语言这些「显式表征」下手了,让视觉输入、环境状态与任务条件直接进入策略模型,模型在隐空间进行推理,输出连续控制信号。


类似的变化也出现在世界模型上,在近期清华大学交叉信息研究院、Galaxea AI发布的论文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》中。研究者针对另一类中间结构「未来想象」,也提出了同样的问题,即在推理阶段,这些中间步骤是否真的必要。



不管是VLA还是世界模型的路径,传统的「显式中间层」往往容易带来延迟过高的问题,从而影响机器人在真实世界中的落地应用。


所以两者指向的也是同一个底层变化,机器人系统正在从分层展开的显式推理结构,转向在统一表示空间中的直接决策。



显式中间层成了机器人的「负担」


最近一两年来,因为大语言模型的成功,受到其架构的启发的传统VLA模型通常采用分层架构,大致过程为:语言、语义理解、任务分解、规划、控制执行。


这种结构看起来模块清晰、可解释性较强,但在实际部署中,一些问题也在逐渐暴露。


  • 表示形式不一致:语言模型处理离散符号,规划模块操作结构化任务,而控制系统依赖连续时间信号,跨层之间的转换不可避免地带来误差积累。


  • 时间尺度不匹配:高层决策通常是低频的,而控制执行需要高频闭环响应,这种分层会引入延迟与不一致。


类似的问题也存在于WAM中,它们通常通过生成未来视频或状态序列来辅助决策,本质上是在「先想象,再行动」。


但这种「想象未来」的过程,同样是一种中间层,它将决策过程显式展开为「预测、评估、选择」。


所以无论是语言,还是未来想象,这些中间结构的共同特点是,它们让系统更容易被理解,但也增加了计算与接口成本。



机器人需要更快响应


在这次GTC期间英伟达所展示的一系列更新中,也可以看到从传统pipeline向更紧凑结构的演进,从状态、到神经策略,再到机器人的连续动作。


这里的关键变化放在VLA中,就在于语言的位置发生了变化,它逐渐退出实时控制回路,更多作为训练阶段的监督信号或高层约束存在,而不是每一步动作决策的输入。


同时,策略模型开始直接输出控制量,例如关节角速度或末端位姿,而不是中间语义指令,模型需要在内部完成原本由多个模块承担的决策过程。


这种「收敛」也发生在WAM路线中,Fast-WAM的工作在类似方面也有所体现。



传统WAM通常包含两个关键部分:


  • 训练阶段:学习视频或状态的动态表示


  • 推理阶段:生成未来轨迹(imagination),再据此选择动作


Fast-WAM则是将这两部分拆开验证,并提出一种更简化的结构:


  • 保留训练阶段的视频建模


  • 在推理阶段完全移除未来生成过程


  • 直接从当前观测输出动作


关键的实验结论也非常明显:


  • 去掉test-time imagination(推理时未来想象),对性能影响很小


  • 去掉video-based training(视频训练),性能显著下降


这意味着,原本被认为是核心的「想象未来」步骤,在一些任务中的推理阶段并非必要。不过,需要注意的是,Fast-WAM并没有移除世界模型本身,而是移除了推理阶段的显式未来生成过程。


而在效率上,这一调整也带来了明显收益,Fast-WAM在多个任务中,将推理延迟降低至约190毫秒,相比一些需要进行未来想象的方案,实现了约4倍的速度提升。



中间层正在内化


将GTC的系统变化与Fast-WAM放在一起,可以看到一个更统一的趋势,机器人系统正在减少显式中间层,将其「内化」为模型中的隐式表示。


语言是其中一种中间层,它将复杂决策转化为可解释的语义步骤。未来想象是另一种中间层,将决策过程展开为可预测的轨迹。


而当前的变化是:


  • 不再显式生成语言指令


  • 不再显式预测未来轨迹


  • 而是在一个统一的表示空间中,直接完成决策


换句话说,模型不再「先做对人类可解释的推理」,再执行动作,这样的逻辑更接近控制系统的自然形式,输入状态,输出动作,中间过程不必显式展开。


为什么是现在?


这种「减少中间层」的趋势,并不是某一个模型设计带来的结果,关键在于多个基础条件在近一年内逐步走向成熟。


其中,最重要的就是仿真与数据生成能力的变化。基于NVIDIA Isaac Sim的大规模仿真,机器人可以在虚拟环境中生成稳定、可控且带有反馈信号的交互数据,包括成功与失败标签。


这也让策略模型不再完全依赖昂贵的真实数据,使直接从状态到动作的训练成为了可能。


这一点同样体现在Fast-WAM的设定中,论文明确依赖视频级别的行为数据进行训练,并指出性能主要来自训练阶段学到的动态表示,而不是推理阶段的额外生成过程。


也就是说,很多情况下,当数据本身已经包含足够的时序信息时,就不再需要在推理阶段显式「再生成一遍未来」。


另外,算力与模型结构的变化也让「减少中间层」有了更加合适的时机。


端到端策略或者是隐式决策模型,实际上是需要在一个统一表示空间中同时处理感知与控制,这对计算资源和模型稳定性提出了更高要求。而这一两年来AI快速发展带来的GPU和边缘计算平台的性能提升,使这类模型可以在实际系统中运行。


而时序Transformer、扩散策略等结构被引入控制问题,可以让模型在不显式展开中间步骤的情况下,学习到稳定的动作分布。这也是为什么Fast-WAM可以在推理阶段移除「未来想象」后仍保持性能,其本质是模型已经在训练阶段完成了对动态过程的建模。


还有一点,就是数据闭环方式出现了变化。相比依赖人工语言标注的系统,策略模型更多依赖交互数据本身,包括轨迹、奖励信号以及环境反馈。这让系统可以通过「执行、反馈、再训练」的循环不断优化,而不是依赖人类提供结构化中间表示。


在这种数据机制下,「中间层」的作用被进一步削弱,模型不再需要通过语言或显式预测来组织决策过程,而是直接从经验中学习映射关系。


这些条件叠加在一起,使得一个此前不太现实的选择变得可行,将原本分散在多个模块中的中间步骤,压缩进模型内部表示,不再逐层展开。



从理解优先到控制优先


削弱「中间层」的技术路径,让机器人执行任务时变得更加工程化。只不过,这种结构收敛带来的代价同样明显:


  • 可解释性下降:分层系统可以定位问题发生在哪一环,而端到端或隐式模型中,错误往往难以拆解。


  • 调试方式变化:问题不再集中在模块接口,更多转向数据与训练过程,比如奖励函数设计、仿真与现实差异、数据分布覆盖,这些问题通常缺乏直接的诊断手段。


此外,显式中间层在一定程度上有助于跨任务迁移,而隐式表达往往更依赖训练分布,泛化能力仍然存在不确定性。


因此,目前这类方法仍主要在结构稳定的场景中表现更好,例如仓储与制造环境。


不过,如果从系统设计角度来看,这一系列变化可以理解为一个更基础的转向,即机器人正在从「以理解为中心」,转向「以控制为中心」。


语言仍然存在,但更多承担训练与交互角色;未来想象仍然有价值,但不再是推理阶段的必要步骤。


在底层执行上,系统更依赖连续感知与动作之间的直接映射,和基于反馈的优化过程,这是一种更贴近控制问题本质的工程取舍。


中间层并没有完全消失,而是从系统结构中被「压缩」进模型内部。它们不再以显式形式存在,但仍然以另一种方式影响着行为生成。


所以在机器人领域,不管是VLA,还是世界模型,正在走着一条和智能驾驶相似的路径,从规则符号、感知规划、再到如今更直接的感知到动作映射,「显式中间层」已经开始变得不那么重要了。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP