本文来自微信公众号: 42号电波 ,作者:Vince,编辑:大吉
在GTC 2026期间,英伟达发布了面向学术研究的Isaac GR00T Reference Humanoid Robot。按照公开信息,这套参考设计采用宇树H2 Plus人形机器人本体,搭载NVIDIA Jetson AGX Thor计算平台,配合Sharpa的五指灵巧手,以及Isaac GR00T机器人基础模型和开发栈,首批产品计划面向高校和研究机构供货。
如果只看表面,这像是一次普通的硬件合作:英伟达提供计算平台和软件栈,宇树提供人形机器人本体,双方共同推出一个科研参考平台。
但这件事很快变得复杂起来。
一方面,宇树几乎在同一时间完成科创板IPO过会,招股书中又明确把大笔资金投向智能机器人模型研发和本体研发。资本市场很自然地把两件事放在一起理解:宇树不只是中国人形机器人本体厂商,也正在进入英伟达的Physical AI生态。
另一方面,美国围绕中国机器人产品的监管讨论也在升温。国会两党议员提出「保卫法案」(GUARD Act)以要求安全机构审查中国人形机器人和四足机器人、国防部1260H清单要求限制签约与采购,此类政策信号,让宇树这样的中国机器人公司在美国市场面临更高的不确定性。
风波中心的宇树顿时饱受争议。但如果把视角只停留在宇树身上,反而容易看小这件事。对英伟达来说,宇树不是唯一合作对象,也不是不可替代的对象。它真正要验证的是另一件事:
机器人时代能否像大模型时代一样,打造一个机器人训练的「CUDA生态」,使算力生意不断延续。
英伟达在找本体入口
英伟达自己不太可能亲自下场做一家人形机器人整机公司,这不符合它过去的成功路径。
大模型时代,英伟达不是OpenAI,不是Anthropic,也不是Google DeepMind,但这些公司训练和部署模型时绕不开GPU、CUDA、NCCL、TensorRT。英伟达没有占据模型与应用层,却占据了底层的算力层和开发生态。
机器人时代也一样。
英伟达不需要自己造最多的人形机器人,它更想成为机器人产业的底层平台供应商。不同厂商可以有不同本体,宇树、Figure、Agility、波士顿动力、NEURA,都可以做自己的机械结构、关节、电机、控制器和整机产品。但只要这些本体接入Isaac、GR00T、Cosmos、Jetson、Newton,机器人训练和部署链条中的大量计算,就会回到英伟达的平台上。
所以,宇树在这件事里扮演的角色,是一个本体入口。这个入口有两个特点。
第一,宇树有成本和工程化优势。相比许多欧美人形机器人公司,宇树更擅长把复杂机器人做成可购买、可交付、可迭代的硬件产品。H2 Plus官网显示,它搭载Jetson T5000机载计算模块,配合双Sharpa Wave灵巧手后总自由度达到75个,并面向科研和二次开发场景。
第二,宇树已经有研究者基础。G1、H1、H2等产品在高校和开发者群体中有一定可见度。如果英伟达想让GR00T这样的机器人基础模型快速进入实验室,它需要一个足够便宜、足够开放、也足够有表现力的本体平台。
这就是为什么英伟达会把参考设计先放在学术研究场景。
科研市场规模不一定最大,但影响标准。论文、开源代码、benchmark、实验范式,往往先从高校和研究机构里长出来。英伟达让Ai2、ETH Zurich、Stanford、UCSD这类机构先用这套参考设计,本质上是在抢机器人研究的默认开发环境。
定义标准是锚定长期市场的关键环节,标准一旦成型,未来更多机器人将从一开始就与英伟达的技术栈深度绑定。
缺的不只是本体,还缺数据
有了本体,只解决了第一层问题。机器人训练真正麻烦的地方,是数据。
大模型训练有一个天然优势:互联网已经积累了海量文本、图像和视频。语言模型可以从人类写过的话里学习语言,从网页和视频里学习世界知识。但机器人需要真实的物理交互动作。
如手怎么抓杯子,脚怎么找平衡,关节怎么分配力矩,碰到桌沿时如何调整路径,物体滑落时怎么补救。
更麻烦的是,这些机器人动作数据天然碎片化。
人类视频是一种格式,动捕数据是一种格式,遥操作数据是一种格式,仿真轨迹是一种格式。不同机器人本体的关节数量、自由度、手部结构、传感器配置又不一样。一个人类抬手的动作,不能直接变成某台人形机器人的控制指令;一台机器人学会的动作,也不能直接迁移给另一台机器人。
所以,机器人预训练要规模化,先要解决「动作怎么表示」的问题。

这就是英伟达的SOMA-X这一类工作的意义。它要解决的是不同参数化人体模型之间的不兼容问题,例如SMPL、SMPL-X等模型在网格拓扑、骨架结构、形状参数和单位约定上的差异。论文提出通过统一网格、统一骨架和统一姿态抽象,让不同人体模型和动作数据可以进入同一套表示层。
如果机器人要学习人类动作,就必须先把人类动作转成统一的、可计算的、可迁移的表征。否则,数据越多,格式越乱;模型越大,训练越难收敛到可用动作。
从这个角度看,机器人不只需要真实本体,还需要「数据本体」。
真实本体解决的是动作最终落到哪台机器上;数据本体解决的是动作在训练系统里如何被记录、生成、转换和复用。
Isaac Newton成为具身训练场
近代物理学之父Isaac Newton的名字,像是被英伟达拆进了自己的机器人技术体系里:Isaac Lab负责机器人学习和训练流程,Newton solver负责物理仿真与求解。
这当然不一定是英伟达刻意设计的命名意义,但作为产业隐喻,它非常准确。
机器人面对的世界,仍然是牛顿式的物理世界。重力、摩擦、接触、碰撞、惯性、关节约束、力矩限制,这些东西不会因为模型参数变大而消失。语言模型可以在token空间里试错,机器人却必须在物理世界里承担动作后果。
所以,仅仅有动作数据还不够,动作还要被放进物理环境里摔打。

Isaac Lab的位置在这里。它是英伟达面向机器人学习的训练框架,用来组织强化学习、模仿学习、运动控制和操作任务。最新Isaac Lab 3.0 Beta的方向很明确:多物理后端、可插拔渲染器、Warp-native数据管线、kit-less安装模式。
这些变化说明Isaac Lab正在从「Isaac Sim上的训练工具」,变成更独立的机器人训练平台。
Newton solver的位置更底层。它处理的是碰撞、接触、关节、摩擦、约束、可微物理等问题。Newton v1.3.0在2026年6月发布,新增和强化了面向强化学习的solver reset、SDF/hydroelastic碰撞、ray query、USD/MJCF资产导入、viewer/rendering等能力。
这些功能不太适合发布会造势,但它们决定机器人训练能不能工程化。
如果说SOMA-X解决的是动作如何统一表示,Isaac Lab和Newton解决的就是这些动作如何在物理规则下训练、验证和优化。
因为机器人行业最难的,不是让仿真视频看起来漂亮,而是让仿真里训练出来的策略在真实本体上还能工作。仿真到现实之间的差距,才是Physical AI的硬问题。
也正是在这个意义上,Isaac Newton这个名字隐喻成立了。
英伟达想做的,不是给机器人装一个聊天模型,而是给机器人造一所「物理学校」:先把动作变成数据,再把数据放进仿真,再让策略在虚拟世界里经历足够多的物理后果,最后迁移到真实本体上。
英伟达的机器人训练栈,正在成型
把这些组件放在一起,就能看到英伟达真正的技术栈,正在贯穿机器人训练的全链路。

本体提供真实承载,动作表征提供数据格式,GR00T把感知和动作接起来,Cosmos补足世界模型和合成数据,Isaac Sim提供仿真世界,Isaac Lab组织训练,Newton处理物理,Jetson负责部署,底层则全部回到GPU和CUDA。
这就是英伟达熟悉的生意结构。
它不一定拥有终端应用,但它要拥有开发路径。只要开发路径被它定义,产业越往前走,算力需求越会回流到它的平台。
Physical AI是叙事,本质回到了算力
英伟达很擅长制造概念。
AI Factory、Omniverse、Digital Twin、Physical AI、World Foundation Model、World Action Model,这些词都带着黄仁勋式的叙事风格。它们足够大,足够顺,足够让投资者和开发者相信下一波浪潮正在到来。
但如果把话说得更直接一点,英伟达还是在做自己最擅长的事:把下一个技术问题,变成下一个算力需求。
大模型时代,GPU需求来自token。模型要读更多文本、生成更多内容、处理更多上下文,就需要更多训练和推理算力。
机器人时代,GPU需求会来自action。
一个action背后,不只是一个动作指令。它需要感知输入、语言理解、动作生成、物理仿真、策略训练、失败回放、真实本体验证和边缘端实时控制。这其中,每一步都要算力。
英伟达的GR00T N1技术报告《An Open Foundation Model for Generalist Humanoid Robots》显示,这类机器人基础模型训练使用了真实机器人轨迹、人类视频和合成数据的混合数据,并采用视觉-语言-动作架构,把理解和动作生成连接起来。
Cosmos 3则更进一步,把语言、图像、视频、音频和动作序列放进一个统一的世界模型框架,用来服务Physical AI。
行动越复杂,仿真越多;仿真越多,GPU消耗越大;GPU消耗越大,英伟达的生意就越稳。
英伟达想把AI的算力叙事,从token扩展到action。
牛顿当年把物理世界抽象成可计算的规律。英伟达今天想做的,是把机器人行动抽象成可训练的算力流程。
从人类动作到统一表征,从统一表征到仿真训练,从仿真训练到真实本体,从真实本体再回流数据。每一步都被软件化、平台化、GPU化。
这不是单纯的机器人故事,而是英伟达把算力增长从语言世界推向物理世界的布局。宇树提供了一个足够具体的本体样本,让这套叙事第一次变得可触摸;SOMA-X这类工作让动作数据有了统一入口;Isaac Lab和Newton把动作放进物理仿真中训练;Cosmos和GR00T则把世界模型与机器人基础模型接上。
最后,所有这些都会回到同一个问题:机器人越多,动作越多,仿真越多,训练越多,谁来提供算力?
英伟达已经给出了自己的答案。
它不一定要造机器人,但一定要让机器人变成新的算力生意。
