英伟达GTC 2026显示机器人技术正减少对语言等显式中间层的依赖，通过直接感知-动作映射提升响应速度，同时保持性能。这一趋势由仿真能力、算力提升和数据闭环机制共同推动。 ## 1. 机器人技术减少显式中间层依赖 - 传统VLA模型依赖语言作为任务分解中间层，导致延迟和误差积累，新版系统让感知直接参与动作生成。 - 世界模型领域（如Fast-WAM论文）验证移除推理阶段的"未来想象"步骤后性能影响微小，但延迟降低4倍至190毫秒。 ## 2. 中间层内化背后的技术驱动 - 大规模仿真（如Isaac Sim）和数据生成使端到端训练成为可能，减少对昂贵真实数据的依赖。 - GPU算力提升和时序Transformer等模型结构进步，支持隐式决策模型在统一表示空间中运行。 - 数据闭环机制从人工标注转向交互反馈，削弱了中间层的必要性。 ## 3. 工程化取舍与挑战 - 优势：响应速度提升，结构更紧凑（如英伟达演示的神经策略直接输出关节控制信号）。 - 代价：可解释性下降，调试转向数据与训练过程，泛化能力仍受限于训练分布。 - 本质转向：从"理解优先"到"控制优先"，语言和未来想象退居为训练工具而非实时决策要素。

2026-03-19 17:27

机器人正在抛弃语言？GTC2026给出的真实答案

42号电波©

本文来自微信公众号： 42号电波，作者：兰博，编辑：James，原文标题：《机器人正在抛弃语言？GTC 2026 给出的真实答案》

在这次GTC 2026上，黄仁勋在演讲中带来了迪士尼的经典IP雪宝机器人，来跟大家现场互动。

而雪宝的背后，其实也隐藏了英伟达面向机器人的一整套技术更新，包括新版Isaac Platform、多模态基础模型，以及进一步强化仿真与现实耦合的训练框架。

这些系统延续了过去几年英伟达在机器人领域的积累，但在多个演示中，可以看到一个更具体的工程变化，机器人系统正在减少对「显式中间层」的依赖，让感知更直接地参与动作生成，提升响应速度。

在传统的VLA模型中，机器人通常是在接收到感知信息后，利用显式语言来理解任务，再拆解为动作序列，语言在其中起到了中间层的作用。

而现在，一部分新的路径开始对语言这些「显式表征」下手了，让视觉输入、环境状态与任务条件直接进入策略模型，模型在隐空间进行推理，输出连续控制信号。

类似的变化也出现在世界模型上，在近期清华大学交叉信息研究院、Galaxea AI发布的论文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》中。研究者针对另一类中间结构「未来想象」，也提出了同样的问题，即在推理阶段，这些中间步骤是否真的必要。

不管是VLA还是世界模型的路径，传统的「显式中间层」往往容易带来延迟过高的问题，从而影响机器人在真实世界中的落地应用。

所以两者指向的也是同一个底层变化，机器人系统正在从分层展开的显式推理结构，转向在统一表示空间中的直接决策。

显式中间层成了机器人的「负担」

最近一两年来，因为大语言模型的成功，受到其架构的启发的传统VLA模型通常采用分层架构，大致过程为：语言、语义理解、任务分解、规划、控制执行。

这种结构看起来模块清晰、可解释性较强，但在实际部署中，一些问题也在逐渐暴露。

表示形式不一致：语言模型处理离散符号，规划模块操作结构化任务，而控制系统依赖连续时间信号，跨层之间的转换不可避免地带来误差积累。

时间尺度不匹配：高层决策通常是低频的，而控制执行需要高频闭环响应，这种分层会引入延迟与不一致。

类似的问题也存在于WAM中，它们通常通过生成未来视频或状态序列来辅助决策，本质上是在「先想象，再行动」。

但这种「想象未来」的过程，同样是一种中间层，它将决策过程显式展开为「预测、评估、选择」。

所以无论是语言，还是未来想象，这些中间结构的共同特点是，它们让系统更容易被理解，但也增加了计算与接口成本。

机器人需要更快响应

在这次GTC期间英伟达所展示的一系列更新中，也可以看到从传统pipeline向更紧凑结构的演进，从状态、到神经策略，再到机器人的连续动作。

这里的关键变化放在VLA中，就在于语言的位置发生了变化，它逐渐退出实时控制回路，更多作为训练阶段的监督信号或高层约束存在，而不是每一步动作决策的输入。

同时，策略模型开始直接输出控制量，例如关节角速度或末端位姿，而不是中间语义指令，模型需要在内部完成原本由多个模块承担的决策过程。

这种「收敛」也发生在WAM路线中，Fast-WAM的工作在类似方面也有所体现。

传统WAM通常包含两个关键部分：

训练阶段：学习视频或状态的动态表示

推理阶段：生成未来轨迹（imagination），再据此选择动作

Fast-WAM则是将这两部分拆开验证，并提出一种更简化的结构：

保留训练阶段的视频建模

在推理阶段完全移除未来生成过程

直接从当前观测输出动作

关键的实验结论也非常明显：

去掉test-time imagination（推理时未来想象），对性能影响很小

去掉video-based training（视频训练），性能显著下降

这意味着，原本被认为是核心的「想象未来」步骤，在一些任务中的推理阶段并非必要。不过，需要注意的是，Fast-WAM并没有移除世界模型本身，而是移除了推理阶段的显式未来生成过程。

而在效率上，这一调整也带来了明显收益，Fast-WAM在多个任务中，将推理延迟降低至约190毫秒，相比一些需要进行未来想象的方案，实现了约4倍的速度提升。

中间层正在内化

将GTC的系统变化与Fast-WAM放在一起，可以看到一个更统一的趋势，机器人系统正在减少显式中间层，将其「内化」为模型中的隐式表示。

语言是其中一种中间层，它将复杂决策转化为可解释的语义步骤。未来想象是另一种中间层，将决策过程展开为可预测的轨迹。

而当前的变化是：

不再显式生成语言指令

不再显式预测未来轨迹

而是在一个统一的表示空间中，直接完成决策

换句话说，模型不再「先做对人类可解释的推理」，再执行动作，这样的逻辑更接近控制系统的自然形式，输入状态，输出动作，中间过程不必显式展开。

为什么是现在？

这种「减少中间层」的趋势，并不是某一个模型设计带来的结果，关键在于多个基础条件在近一年内逐步走向成熟。

其中，最重要的就是仿真与数据生成能力的变化。基于NVIDIA Isaac Sim的大规模仿真，机器人可以在虚拟环境中生成稳定、可控且带有反馈信号的交互数据，包括成功与失败标签。

这也让策略模型不再完全依赖昂贵的真实数据，使直接从状态到动作的训练成为了可能。

这一点同样体现在Fast-WAM的设定中，论文明确依赖视频级别的行为数据进行训练，并指出性能主要来自训练阶段学到的动态表示，而不是推理阶段的额外生成过程。

也就是说，很多情况下，当数据本身已经包含足够的时序信息时，就不再需要在推理阶段显式「再生成一遍未来」。

另外，算力与模型结构的变化也让「减少中间层」有了更加合适的时机。

端到端策略或者是隐式决策模型，实际上是需要在一个统一表示空间中同时处理感知与控制，这对计算资源和模型稳定性提出了更高要求。而这一两年来AI快速发展带来的GPU和边缘计算平台的性能提升，使这类模型可以在实际系统中运行。

而时序Transformer、扩散策略等结构被引入控制问题，可以让模型在不显式展开中间步骤的情况下，学习到稳定的动作分布。这也是为什么Fast-WAM可以在推理阶段移除「未来想象」后仍保持性能，其本质是模型已经在训练阶段完成了对动态过程的建模。

还有一点，就是数据闭环方式出现了变化。相比依赖人工语言标注的系统，策略模型更多依赖交互数据本身，包括轨迹、奖励信号以及环境反馈。这让系统可以通过「执行、反馈、再训练」的循环不断优化，而不是依赖人类提供结构化中间表示。

在这种数据机制下，「中间层」的作用被进一步削弱，模型不再需要通过语言或显式预测来组织决策过程，而是直接从经验中学习映射关系。

这些条件叠加在一起，使得一个此前不太现实的选择变得可行，将原本分散在多个模块中的中间步骤，压缩进模型内部表示，不再逐层展开。

从理解优先到控制优先

削弱「中间层」的技术路径，让机器人执行任务时变得更加工程化。只不过，这种结构收敛带来的代价同样明显：

可解释性下降：分层系统可以定位问题发生在哪一环，而端到端或隐式模型中，错误往往难以拆解。

调试方式变化：问题不再集中在模块接口，更多转向数据与训练过程，比如奖励函数设计、仿真与现实差异、数据分布覆盖，这些问题通常缺乏直接的诊断手段。

此外，显式中间层在一定程度上有助于跨任务迁移，而隐式表达往往更依赖训练分布，泛化能力仍然存在不确定性。

因此，目前这类方法仍主要在结构稳定的场景中表现更好，例如仓储与制造环境。

不过，如果从系统设计角度来看，这一系列变化可以理解为一个更基础的转向，即机器人正在从「以理解为中心」，转向「以控制为中心」。

语言仍然存在，但更多承担训练与交互角色；未来想象仍然有价值，但不再是推理阶段的必要步骤。

在底层执行上，系统更依赖连续感知与动作之间的直接映射，和基于反馈的优化过程，这是一种更贴近控制问题本质的工程取舍。

中间层并没有完全消失，而是从系统结构中被「压缩」进模型内部。它们不再以显式形式存在，但仍然以另一种方式影响着行为生成。

所以在机器人领域，不管是VLA，还是世界模型，正在走着一条和智能驾驶相似的路径，从规则符号、感知规划、再到如今更直接的感知到动作映射，「显式中间层」已经开始变得不那么重要了。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP