美国Physical Intelligence公司发布VLA模型π0.7,通过技能组合泛化实现"开箱即用"的具身智能,无需微调即可完成新任务,其涌现能力挑战了传统世界模型的发展路径。 ## 1. 突破性组合泛化能力 - π0.7通过复用基础技能(如抓取、折叠)动态解决新任务,在未训练的叠衣服任务中达到85.6%完成度,接近人类操作员90.9%的水平 - 采用"结构驱动"任务表示法,将任务拆解为可复用技能单元,显著区别于传统"样本驱动"的VLA模型 ## 2. 开箱即用的通才表现 - 在咖啡制作、叠衣服等任务中,未微调的π0.7性能持平专精模型π0.6(RL/SFT specialist),且效率更高 - 核心突破在于用有限技能覆盖无限任务,能力增长不再线性依赖数据规模 ## 3. Prompt驱动的执行机制 - 多模态Prompt包含任务拆解、操作顺序和纠错信号,构成丰富上下文 - 仅通过语言引导即可完成训练数据中罕见的任务(如烹饪操作),大幅降低数据采集成本 ## 4. 跨本体泛化优势 - 在未训练的UR5e机器人上实现高效叠衣服,验证软件与硬件解耦能力 - 为机器人软件的大规模商业化提供技术基础,类比自动驾驶软件模式 ## 5. 对行业的技术启示 - 展示"能力涌现"新路径:通过技能重组而非数据堆叠实现智能突破 - 挑战世界模型主导趋势,证明VLA路线在具身智能领域的竞争力
机器人开始自学新技能,涌现能力出现,VLA 让世界模型感到紧张
2026-04-17 22:23

机器人开始自学新技能,涌现能力出现,VLA 让世界模型感到紧张

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James


4月17日凌晨,美国具身智能企业Physical Intelligence(PI)发布了新款VLA模型π0.7,在具身领域向行业证明了VLA的组合泛化能力。


在具体应用时,模型对于没见过的新任务,可以利用以前学到的技能,自己想出一个好的解决方法。就像叠衣服时,尽管此前π0.7没有这样的数据,但它依然「涌现」出了这项技能,通过已经掌握的技能来想出叠衣服的方法。


而且PI描述π0.7是一款「开箱即用的」VLA模型,不需要针对具体任务进行微调,就能折箱子、做咖啡、打开抽屉。


并且还拥有跨本体的能力,即便陌生本体没有相关任务数据,搭载π0.7后的成功率,跟具备大量遥操经验的人类第一次做相同任务时差不多。


而拥有这些能力的一个关键点,就是用多样化和详细的Prompt,让数据更加好用。这种处理数据的方式,在整个行业中非常少见。


就连PI研究员Ashwin Balakrishna都说:「我过去总能根据训练数据猜出模型能做什么,这一次,我猜不到了。」


在目前大量VLA模型还处于见过才能做,泛化能力高度依赖训练分布的情况下,PI的π0.7算是将VLA带到了另一个阶段,并且也让世界模型的路径,开始感觉到了紧张。



通才达到了专才的水平


在机器人领域,行业内一直都想打造出一款可以真正执行多种任务的模型,实际具体到执行时,很多任务都需要进行专项训练,所以这种模式也远远达不到通用的标准。


但π0.7开箱即用的属性展现了其通才的潜力,根据相关实验数据,在做咖啡、叠衣服、装箱几个任务上,尽管π0.7没有对这些任务进行专门训练,但水平依然追平了π0.6微调过的专家模型RL specialist和SFT specialist。


更重要的是,π0.7在叠衣服、装箱这两项任务上的效率还更高一些。



其实目前很多「专家模型」,实际上就是通过:


  • 针对单一任务收集大量数据;


  • 进行强化学习或监督微调;


  • 将策略压缩到一个高度特化的模型中。


在这样的方式下,专家模型的能力来自对某一个任务的深度拟合。而π0.7的路径完全不同,它并没有针对这些任务做额外训练,主要依赖已有能力的组合与重用。



比如在叠衣服任务中,它不是学会了叠衣服本身,反而通过调用抓取、展开、对齐,折叠这些在其他任务中已经学到的基础能力,在执行过程中动态组合成一个新的解决方案。


所以它达到专才的水平,就是因为脑子更活更灵通,懂得复用能力,并不受限于某一种固定策略,在执行过程中不断选择当前更合适的动作组合。


也就是说,π0.7想表达的一个核心,就是一种新的能力获取方式,用有限的技能,覆盖无限的任务。



组合泛化是怎么实现的?


从技术博客来看,实现这些能力有个很重要的点就是PI处理数据的方式。


一些经典的VLA对于数据的组织方式更接近「任务标签」,倒水是一类数据,抓取是一类数据,开抽屉也是一类数据,模型学习的是输入到对应动作的映射关系,往往学到的都是表象,容易知其然而不知其所以然。


π0.7明显在往另一种结构转变,把任务拆成可以复用的「技能单元」,再通过语言进行组合。



也就是说,模型内部不再只是隐式拟合任务,会逐渐形成:


  • 可复用的动作primitives


  • 对任务目标的结构化理解


  • 基于语言的动态组合能力


这也是为什么它在面对叠衣服这种没见过的任务时,并不靠猜,会做类似抓取、展开、对齐、折叠这样的组合推理。


这一步的关键,就是让任务表示从「样本驱动」走向「结构驱动」。这也让机器人的能力,开始像大语言模型那样,逐渐出现了「涌现」的潜力。


而且,仅仅通过工作人员的一步步口述语言引导,机器人就能打开锅盖、放入食材,关上机器,尽管它的训练数据中就没怎么见过这项任务。


口述就能教会机器人新技能,如果这样的情况可以大量复制,那数据采集的成本也会随之下降。


Prompt成了可控执行的引导机制


在大多数机器人系统中Prompt只是一个高层指令,真正决定行为的是策略模型。


但在π0.7中,Prompt的角色明显发生了变化,它开始承担任务描述+执行约束+中间指导的功能,并不是就说一句话的形式,反而更加多样、详细:


  • 任务拆解方式


  • 操作顺序提示


  • 纠错信号


在PI的做法中,数据加上多样的上下文后,会变成多模态Prompt,甚至都有任务完成后该出现的画面。



这种情况下,Prompt不只是自然语言描述,会和数据一起构成了更丰富的上下文,包括任务拆解方式、操作顺序提示,甚至是潜在的纠错信号。


这些信息在训练过程中就被纳入,让模型在推理时能够基于这些结构进行决策。


而且,PI团队也强调到,用更多样化、详细的Prompt,可以显著提升能力。


跨本体泛化让软件脱离硬件


作为一家主要业务在软件上的具身企业,PI就是想做类似自动驾驶领域的软件公司,通过给汽车提供智驾软件来盈利。


但机器人领域各种硬件层出不穷,软件的跨本体泛化能力就是PI必须要考虑的问题,所以这也是π0.7的重点能力之一。



具体到任务上,π0.7在叠衣服时,训练数据里并没有UR5e叠衣服的样本,但它的完成度达到了85.6%。


与之对应的是,10个平均有375小时遥操经验人类操作员,他们的完成度是90.9%,完成度是差不多的。不过π0.7在数据方面,比起人类没有优势。


而这种跨本体的泛化潜力,也给了PI增加了一些软件大规模商业应用的底气。


写在最后


总体来看,这次π0.7的重点,还是在模型能力获取方式的变化上。


很多情况下,模型能力的增长,实际是数据覆盖的问题,见过多少任务,就能做多少任务,泛化能力也高度依赖训练分布本身。


所以π0.7展示的是另一条路径,用有限的技能,去覆盖无限的任务空间,从而让模型能力的增长不再单纯线性依赖数据规模,这条路则更看重:


  • 技能是否可以被拆解与复用;


  • 任务是否可以被结构化理解;


  • 以及是否能够通过语言进行动态组合。


当这些条件逐渐具备之后,机器人的能力开始逐渐「涌现」。这种能力,是在结构和组合中自然而然「生长出来」的。


所以,连PI研究员都说自己很难再通过训练数据去预测模型的能力边界,因为能力的来源,已经不再完全对应某一段具体数据,反而来自更高层次的组织方式。


更有趣的是,在世界模型异常火热的这几个月里,π0.7的出现,也让VLA这条路开始重新兴奋了起来。在这种情况下,世界模型可能要开始紧张起来了。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP