美国Physical Intelligence公司发布VLA模型π0.7，通过技能组合泛化实现"开箱即用"的具身智能，无需微调即可完成新任务，其涌现能力挑战了传统世界模型的发展路径。 ## 1. 突破性组合泛化能力 - π0.7通过复用基础技能（如抓取、折叠）动态解决新任务，在未训练的叠衣服任务中达到85.6%完成度，接近人类操作员90.9%的水平 - 采用"结构驱动"任务表示法，将任务拆解为可复用技能单元，显著区别于传统"样本驱动"的VLA模型 ## 2. 开箱即用的通才表现 - 在咖啡制作、叠衣服等任务中，未微调的π0.7性能持平专精模型π0.6（RL/SFT specialist），且效率更高 - 核心突破在于用有限技能覆盖无限任务，能力增长不再线性依赖数据规模 ## 3. Prompt驱动的执行机制 - 多模态Prompt包含任务拆解、操作顺序和纠错信号，构成丰富上下文 - 仅通过语言引导即可完成训练数据中罕见的任务（如烹饪操作），大幅降低数据采集成本 ## 4. 跨本体泛化优势 - 在未训练的UR5e机器人上实现高效叠衣服，验证软件与硬件解耦能力 - 为机器人软件的大规模商业化提供技术基础，类比自动驾驶软件模式 ## 5. 对行业的技术启示 - 展示"能力涌现"新路径：通过技能重组而非数据堆叠实现智能突破 - 挑战世界模型主导趋势，证明VLA路线在具身智能领域的竞争力

2026-04-17 22:23

机器人开始自学新技能，涌现能力出现，VLA 让世界模型感到紧张

42号电波©

本文来自微信公众号： 42号电波，作者：兰博，编辑：James

4月17日凌晨，美国具身智能企业Physical Intelligence（PI）发布了新款VLA模型π0.7，在具身领域向行业证明了VLA的组合泛化能力。

在具体应用时，模型对于没见过的新任务，可以利用以前学到的技能，自己想出一个好的解决方法。就像叠衣服时，尽管此前π0.7没有这样的数据，但它依然「涌现」出了这项技能，通过已经掌握的技能来想出叠衣服的方法。

而且PI描述π0.7是一款「开箱即用的」VLA模型，不需要针对具体任务进行微调，就能折箱子、做咖啡、打开抽屉。

并且还拥有跨本体的能力，即便陌生本体没有相关任务数据，搭载π0.7后的成功率，跟具备大量遥操经验的人类第一次做相同任务时差不多。

而拥有这些能力的一个关键点，就是用多样化和详细的Prompt，让数据更加好用。这种处理数据的方式，在整个行业中非常少见。

就连PI研究员Ashwin Balakrishna都说：「我过去总能根据训练数据猜出模型能做什么，这一次，我猜不到了。」

在目前大量VLA模型还处于见过才能做，泛化能力高度依赖训练分布的情况下，PI的π0.7算是将VLA带到了另一个阶段，并且也让世界模型的路径，开始感觉到了紧张。

通才达到了专才的水平

在机器人领域，行业内一直都想打造出一款可以真正执行多种任务的模型，实际具体到执行时，很多任务都需要进行专项训练，所以这种模式也远远达不到通用的标准。

但π0.7开箱即用的属性展现了其通才的潜力，根据相关实验数据，在做咖啡、叠衣服、装箱几个任务上，尽管π0.7没有对这些任务进行专门训练，但水平依然追平了π0.6微调过的专家模型RL specialist和SFT specialist。

更重要的是，π0.7在叠衣服、装箱这两项任务上的效率还更高一些。

其实目前很多「专家模型」，实际上就是通过：

针对单一任务收集大量数据；

进行强化学习或监督微调；

将策略压缩到一个高度特化的模型中。

在这样的方式下，专家模型的能力来自对某一个任务的深度拟合。而π0.7的路径完全不同，它并没有针对这些任务做额外训练，主要依赖已有能力的组合与重用。

比如在叠衣服任务中，它不是学会了叠衣服本身，反而通过调用抓取、展开、对齐，折叠这些在其他任务中已经学到的基础能力，在执行过程中动态组合成一个新的解决方案。

所以它达到专才的水平，就是因为脑子更活更灵通，懂得复用能力，并不受限于某一种固定策略，在执行过程中不断选择当前更合适的动作组合。

也就是说，π0.7想表达的一个核心，就是一种新的能力获取方式，用有限的技能，覆盖无限的任务。

组合泛化是怎么实现的？

从技术博客来看，实现这些能力有个很重要的点就是PI处理数据的方式。

一些经典的VLA对于数据的组织方式更接近「任务标签」，倒水是一类数据，抓取是一类数据，开抽屉也是一类数据，模型学习的是输入到对应动作的映射关系，往往学到的都是表象，容易知其然而不知其所以然。

π0.7明显在往另一种结构转变，把任务拆成可以复用的「技能单元」，再通过语言进行组合。

也就是说，模型内部不再只是隐式拟合任务，会逐渐形成：

可复用的动作primitives

对任务目标的结构化理解

基于语言的动态组合能力

这也是为什么它在面对叠衣服这种没见过的任务时，并不靠猜，会做类似抓取、展开、对齐、折叠这样的组合推理。

这一步的关键，就是让任务表示从「样本驱动」走向「结构驱动」。这也让机器人的能力，开始像大语言模型那样，逐渐出现了「涌现」的潜力。

而且，仅仅通过工作人员的一步步口述语言引导，机器人就能打开锅盖、放入食材，关上机器，尽管它的训练数据中就没怎么见过这项任务。

口述就能教会机器人新技能，如果这样的情况可以大量复制，那数据采集的成本也会随之下降。

Prompt成了可控执行的引导机制

在大多数机器人系统中Prompt只是一个高层指令，真正决定行为的是策略模型。

但在π0.7中，Prompt的角色明显发生了变化，它开始承担任务描述+执行约束+中间指导的功能，并不是就说一句话的形式，反而更加多样、详细：

任务拆解方式
操作顺序提示
纠错信号

在PI的做法中，数据加上多样的上下文后，会变成多模态Prompt，甚至都有任务完成后该出现的画面。

这种情况下，Prompt不只是自然语言描述，会和数据一起构成了更丰富的上下文，包括任务拆解方式、操作顺序提示，甚至是潜在的纠错信号。

这些信息在训练过程中就被纳入，让模型在推理时能够基于这些结构进行决策。

而且，PI团队也强调到，用更多样化、详细的Prompt，可以显著提升能力。

跨本体泛化让软件脱离硬件

作为一家主要业务在软件上的具身企业，PI就是想做类似自动驾驶领域的软件公司，通过给汽车提供智驾软件来盈利。

但机器人领域各种硬件层出不穷，软件的跨本体泛化能力就是PI必须要考虑的问题，所以这也是π0.7的重点能力之一。

具体到任务上，π0.7在叠衣服时，训练数据里并没有UR5e叠衣服的样本，但它的完成度达到了85.6%。

与之对应的是，10个平均有375小时遥操经验人类操作员，他们的完成度是90.9%，完成度是差不多的。不过π0.7在数据方面，比起人类没有优势。

而这种跨本体的泛化潜力，也给了PI增加了一些软件大规模商业应用的底气。

写在最后

总体来看，这次π0.7的重点，还是在模型能力获取方式的变化上。

很多情况下，模型能力的增长，实际是数据覆盖的问题，见过多少任务，就能做多少任务，泛化能力也高度依赖训练分布本身。

所以π0.7展示的是另一条路径，用有限的技能，去覆盖无限的任务空间，从而让模型能力的增长不再单纯线性依赖数据规模，这条路则更看重：

技能是否可以被拆解与复用；

任务是否可以被结构化理解；

以及是否能够通过语言进行动态组合。

当这些条件逐渐具备之后，机器人的能力开始逐渐「涌现」。这种能力，是在结构和组合中自然而然「生长出来」的。

所以，连PI研究员都说自己很难再通过训练数据去预测模型的能力边界，因为能力的来源，已经不再完全对应某一段具体数据，反而来自更高层次的组织方式。

更有趣的是，在世界模型异常火热的这几个月里，π0.7的出现，也让VLA这条路开始重新兴奋了起来。在这种情况下，世界模型可能要开始紧张起来了。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定