本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James
4月17日凌晨,美国具身智能企业Physical Intelligence(PI)发布了新款VLA模型π0.7,在具身领域向行业证明了VLA的组合泛化能力。
在具体应用时,模型对于没见过的新任务,可以利用以前学到的技能,自己想出一个好的解决方法。就像叠衣服时,尽管此前π0.7没有这样的数据,但它依然「涌现」出了这项技能,通过已经掌握的技能来想出叠衣服的方法。
而且PI描述π0.7是一款「开箱即用的」VLA模型,不需要针对具体任务进行微调,就能折箱子、做咖啡、打开抽屉。
并且还拥有跨本体的能力,即便陌生本体没有相关任务数据,搭载π0.7后的成功率,跟具备大量遥操经验的人类第一次做相同任务时差不多。
而拥有这些能力的一个关键点,就是用多样化和详细的Prompt,让数据更加好用。这种处理数据的方式,在整个行业中非常少见。
就连PI研究员Ashwin Balakrishna都说:「我过去总能根据训练数据猜出模型能做什么,这一次,我猜不到了。」
在目前大量VLA模型还处于见过才能做,泛化能力高度依赖训练分布的情况下,PI的π0.7算是将VLA带到了另一个阶段,并且也让世界模型的路径,开始感觉到了紧张。

通才达到了专才的水平
在机器人领域,行业内一直都想打造出一款可以真正执行多种任务的模型,实际具体到执行时,很多任务都需要进行专项训练,所以这种模式也远远达不到通用的标准。
但π0.7开箱即用的属性展现了其通才的潜力,根据相关实验数据,在做咖啡、叠衣服、装箱几个任务上,尽管π0.7没有对这些任务进行专门训练,但水平依然追平了π0.6微调过的专家模型RL specialist和SFT specialist。
更重要的是,π0.7在叠衣服、装箱这两项任务上的效率还更高一些。

其实目前很多「专家模型」,实际上就是通过:
针对单一任务收集大量数据;
进行强化学习或监督微调;
将策略压缩到一个高度特化的模型中。
在这样的方式下,专家模型的能力来自对某一个任务的深度拟合。而π0.7的路径完全不同,它并没有针对这些任务做额外训练,主要依赖已有能力的组合与重用。

比如在叠衣服任务中,它不是学会了叠衣服本身,反而通过调用抓取、展开、对齐,折叠这些在其他任务中已经学到的基础能力,在执行过程中动态组合成一个新的解决方案。
所以它达到专才的水平,就是因为脑子更活更灵通,懂得复用能力,并不受限于某一种固定策略,在执行过程中不断选择当前更合适的动作组合。
也就是说,π0.7想表达的一个核心,就是一种新的能力获取方式,用有限的技能,覆盖无限的任务。

组合泛化是怎么实现的?
从技术博客来看,实现这些能力有个很重要的点就是PI处理数据的方式。
一些经典的VLA对于数据的组织方式更接近「任务标签」,倒水是一类数据,抓取是一类数据,开抽屉也是一类数据,模型学习的是输入到对应动作的映射关系,往往学到的都是表象,容易知其然而不知其所以然。
π0.7明显在往另一种结构转变,把任务拆成可以复用的「技能单元」,再通过语言进行组合。

也就是说,模型内部不再只是隐式拟合任务,会逐渐形成:
可复用的动作primitives
对任务目标的结构化理解
基于语言的动态组合能力
这也是为什么它在面对叠衣服这种没见过的任务时,并不靠猜,会做类似抓取、展开、对齐、折叠这样的组合推理。
这一步的关键,就是让任务表示从「样本驱动」走向「结构驱动」。这也让机器人的能力,开始像大语言模型那样,逐渐出现了「涌现」的潜力。
而且,仅仅通过工作人员的一步步口述语言引导,机器人就能打开锅盖、放入食材,关上机器,尽管它的训练数据中就没怎么见过这项任务。
口述就能教会机器人新技能,如果这样的情况可以大量复制,那数据采集的成本也会随之下降。
Prompt成了可控执行的引导机制
在大多数机器人系统中Prompt只是一个高层指令,真正决定行为的是策略模型。
但在π0.7中,Prompt的角色明显发生了变化,它开始承担任务描述+执行约束+中间指导的功能,并不是就说一句话的形式,反而更加多样、详细:
任务拆解方式
操作顺序提示
纠错信号
在PI的做法中,数据加上多样的上下文后,会变成多模态Prompt,甚至都有任务完成后该出现的画面。

这种情况下,Prompt不只是自然语言描述,会和数据一起构成了更丰富的上下文,包括任务拆解方式、操作顺序提示,甚至是潜在的纠错信号。
这些信息在训练过程中就被纳入,让模型在推理时能够基于这些结构进行决策。
而且,PI团队也强调到,用更多样化、详细的Prompt,可以显著提升能力。
跨本体泛化让软件脱离硬件
作为一家主要业务在软件上的具身企业,PI就是想做类似自动驾驶领域的软件公司,通过给汽车提供智驾软件来盈利。
但机器人领域各种硬件层出不穷,软件的跨本体泛化能力就是PI必须要考虑的问题,所以这也是π0.7的重点能力之一。

具体到任务上,π0.7在叠衣服时,训练数据里并没有UR5e叠衣服的样本,但它的完成度达到了85.6%。
与之对应的是,10个平均有375小时遥操经验人类操作员,他们的完成度是90.9%,完成度是差不多的。不过π0.7在数据方面,比起人类没有优势。
而这种跨本体的泛化潜力,也给了PI增加了一些软件大规模商业应用的底气。

写在最后
总体来看,这次π0.7的重点,还是在模型能力获取方式的变化上。
很多情况下,模型能力的增长,实际是数据覆盖的问题,见过多少任务,就能做多少任务,泛化能力也高度依赖训练分布本身。
所以π0.7展示的是另一条路径,用有限的技能,去覆盖无限的任务空间,从而让模型能力的增长不再单纯线性依赖数据规模,这条路则更看重:
技能是否可以被拆解与复用;
任务是否可以被结构化理解;
以及是否能够通过语言进行动态组合。
当这些条件逐渐具备之后,机器人的能力开始逐渐「涌现」。这种能力,是在结构和组合中自然而然「生长出来」的。
所以,连PI研究员都说自己很难再通过训练数据去预测模型的能力边界,因为能力的来源,已经不再完全对应某一段具体数据,反而来自更高层次的组织方式。
更有趣的是,在世界模型异常火热的这几个月里,π0.7的出现,也让VLA这条路开始重新兴奋了起来。在这种情况下,世界模型可能要开始紧张起来了。
