美国具身智能公司Physical Intelligence(PI)专注机器人操作系统而非硬件,以56亿美元估值领跑行业,其核心是通过数据飞轮和通用底座解决机器人规模化落地的长尾挑战。 ## 1. 数据飞轮:真实世界驱动的模型进化 - PI采用特斯拉自动驾驶逻辑,优先构建实用系统以自主采集真实数据,而非追求终极数据集规模。 - 行业数据痛点在于缺乏统一格式和低成本标注,PI选择真实数据+多任务学习路线,但承认未来可能与仿真路线融合。 - 关键突破:语言标注替代动作级监督,推动机器人进入弱监督时代,降低规模化门槛。 ## 2. 操作系统底座:解耦形态的通用智能 - 反对专用/人形机器人路线,主张开发适配任意硬件的"操作系统级"基础模型,类比大语言模型统一应用场景。 - 核心能力是物理世界认知,需整合多场景数据建立直觉预判能力,这与Figure等硬件优先公司的390亿美元估值路径形成对比。 ## 3. 家庭场景落地的终极挑战 - 2050年机器人未普及的主因可能是场景多样性和人机交互长尾问题(如照护任务的高风险性)。 - 家庭环境要求模型具备极端鲁棒性:需处理无限突发状况,且每次决策必须符合人类预期。 ## 4. 中层推理:从语言到隐式表征的转型 - 当前研发重点转向空间+语义的联合表征,突破纯文本推理的低效性(如思维链外挂的局限性)。 - 行业共识:瓶颈已从动作执行转为决策理解,需构建类似人类直觉的隐式推理结构。 ## 5. 长期主义的技术路径选择 - PI坚持软件优先战略,接受长周期技术曲线,需通过算法极致性换取硬件厂商买单。 - 关键矛盾:数据飞轮依赖硬件落地,但估值逻辑反向要求软件先行,形成独特商业模式张力。
不做机器人本体,这家公司却拿了385亿估值,它赌的是操作系统
2026-04-08 19:02

不做机器人本体,这家公司却拿了385亿估值,它赌的是操作系统

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《不做机器人本体,这家公司却拿了 385 亿估值,它赌的是操作系统》


最近,美国具身智能公司Physical Intelligence的联合创始人Sergey Levine参加了播客节目《Invest Like The Best》,在1个多小时的访谈中,Sergey Levine就机器人模型路线、数据飞轮、本体硬件等问题进行了详细探讨。


作为一家主做软件的具身公司,PI的商业模式是给其他机器人团队提供模型,这点也类似于给汽车提供智驾系统的软件公司。并且在去年底完成6亿美元融资后,PI的估值达到56亿美元(约合人民币385亿元),比不少全栈自研的具身公司估值都要高。


另外,身为PI的联创,Sergey Levine同时也是UC伯克利大学计算机副教授,其谷歌学术引用量达18万次,在机器人等领域具有一定的影响力。


在行业共同关注的数据领域,Sergey Levine认为,现阶段量化终极数据集的规模不是首要问题,打造能落地执行多样化任务、持续采集数据的实用系统是更关键的事情。


而对于机器人大规模进入家庭这件事,Sergey Levine表示,如果在2050年机器人还没进入家庭干活,那很可能就是因为应对场景的多样性,和技术与人类社会交互的长尾挑战还没有很好地解决。


所以在这个过程中,PI一直就想打造一套像操作系统一样的底座,从而适配各种类型的本体硬件。



数据先跑起来最关键


相比较大语言模型,机器人行业的数据问题,更加复杂。Levine也提到一个关键差异,就是机器人没有「互联网级数据」。基本没什么统一格式的情况下,还没有低成本的标注。


所以目前行业在数据方面的路径大致分为两种:


  • 真实世界+数据驱动,采用大量真实数据,多任务学习,打造通用模型。特点是泛化强,贴近真实场景,但规模化的数据采集成本很高。


  • 仿真驱动,模型主要在仿真环境中学习,成本低,也可以模拟一些极端危险场景。但仿真与真实物理世界之间通常存在一些微观误差。


PI走的路线是前者,比较重视真实数据,但Levine也没有盲目自信,他提到这两条路线未来要么融合,要么其中一条胜出,并不一定真实数据的路线就一定能走到最后。


目前而言,PI的策略,还是非常接近特斯拉的自动驾驶逻辑,Levine表示,核心是让系统先具备实用价值,能走入现实世界自主采集更多数据,就像特斯拉从不担心车辆数据量,甚至数据多到处理不完。关键不在于量化终极数据集的规模,而在于打造能落地、能执行多样化任务、持续采集数据的实用系统。


这就是机器人版的数据飞轮,也是现在很多机器人公司都在提、也最想去落地推动的事情:


  • 让系统先能用起来,尽管不完美,能在真实环境中持续执行任务是核心。


  • 在使用中采集数据,这个过程中用户得到了使用价值,整个系统也有了持续学习,产出数据的载体。


  • 反哺模型,实际落地中产生的数据可以让模型不断优化策略,从而提升能力。


但这里有一个更深的变化,就是数据的重心正在迁移,过去机器人依赖精确控制数据、人工标注轨迹和动作级监督。


而现在,Levine提到一个非常关键的技术点:只用「语言标注」,也能优化机器人。也就是说,机器人犯错时,不需要再教机器人怎么动,用语言标注哪里做错了,模型就可以得到改进。


这也就意味着机器人正在逐渐进入一个弱监督时代,类似大模型从精确标注走到大规模弱监督,从动作学习走到语义学习,这一步也是机器人走向规模化的关键。



操作系统一样的底座更加重要


在机器人本体硬件领域,通常也有两种设计方案,一种是专用机器人,像物流、洗碗机器人,它们能在细分场景中执行专业任务,一旦换个场景,就会没有用武之地。


另一种则是通用人形机器人,目标是执行人类可以做到的一切任务,通用性很强,但研发难度非常高。


在Levine看来,这些都不是主要问题,所有机器人面临的智能核心挑战是一致的。造出一个像操作系统一样的底座是更重要的问题,而后大量本体硬件形态在这上面爆发,才是更合理的路径。并且优秀的基础模型应与机器人形态解耦,能自主适配操控的躯体与工具。


这也是他对physical intelligence的定义,目标是开发能控制任何具身系统去执行「任何任务」的机器人基础模型。


在这里Levine也用大语言模型和机器人模型进行了比较:


  • 语言模型能一统各类应用场景,核心是它能利用更广泛的数据来源。这并非简单整合各场景数据,而是通过弱监督数据习得更全面的世界认知,建立底层认知基础,在此之上搭建各类应用,效率会大幅提升。


  • 在机器人领域,世界认知能力更关键。人类能快速掌握新技能,是因为我们理解物理规则,能凭直觉预判陌生场景的结果,快速举一反三。如果能整合多来源、多场景、多机器人的数据,就能让模型具备物理认知能力,后续在该平台上拓展新应用会更加轻松。



在这个基础上,PI一直以来的路径都是优先模型算法层面的研发,尽管机器人行业有这么一句话流传:「如果你从事机器人领域,却不全力以赴解决硬件问题,无论成本如何,你都不会成功。」


这句话正是出自Figure创始人,这家公司有着机器人行业全球最高的390亿美元估值。


如果25年后机器人还不能走进家庭


自从这两年机器人开始大规模走进大众视野后,人们就一直在期待着机器人能真的走进家里,帮助自己处理一些家务。


但因为技术成熟度的限制,尤其是模型,很多机器人干活的样子大家也只能通过短视频Demo来了解,不过近一年随着模型、数据、硬件等领域的发展。


不少机器人从业人士对机器人进家这件事开始更加积极,5到10年左右也是一些CEO经常提到的数字,对应的时间节点大概在2030到2035年。


「如果到2050年,厨房仍没有机器人帮忙洗碗,最可能的原因是什么?」


Levine对此表示,如果是这样,那核心阻碍可能就是技术与人类社会交互的长尾挑战,在技术层面,最大的风险就是应对场景的多样性。


  • 技术与人类社会交互的长尾挑战:和自动驾驶类似,技术达标只是一方面,公众对技术的接受度、对不完美表现的容忍度,也是很大的问题。


  • 应对场景的多样性:清洁酒店客房、餐厅辅助厨师等相对可控的复杂场景,我们有把握攻克。但家庭环境充满不可预知的突发状况,需要模型精准预判、智能适配。当任何情况都可能发生,且机器人会真实影响物理世界,就必须保证每一次决策都合理可控,行为必须符合人类预期。


而且对于机器人进入家庭来说,最难的任务就是扶老人起床、给婴儿换尿布这类照护型的任务,有非常高的风险,互动时容易伤到人类。


这些对于机器人来说是终极挑战,也是最容易让低估难度的领域。


中层推理环节是当下核心


在目前机器人行业技术路径尚未完全收敛的情况下,Levine也简单透露了当下PI的研发核心是中层推理环节。


他提到,要想实现泛化,必须依托常识知识,而知识的表征形式至关重要。大语言模型擅长文本转换,但机器人需要空间、语义等多维度认知。


这背后其实意味着一个行业共识正在逐渐形成,机器人最大的瓶颈,已经从动作执行,转向决策与理解。


更重要的变化是,推理的表征形式,也在慢慢发生转变。


过去一年,很多机器人系统开始引入类似大模型的思维链,先用语言拆解任务,再逐步执行动作。这在早期非常有效,相当于把大模型的能力外挂到机器人上。



但在落地过程中,大家也慢慢发现,语言并不是物理世界的高效表示。如果把机器人面对的空间关系、物体状态和连续变化这些信息如果全部转成文本再推理,不仅低效,而且容易出错。


这也是Levine提到的关键点,需要新的「知识表征方式」,而不是单纯依赖文本。当前行业正在探索的方向,是把推理从「显式语言」,逐渐转向「隐式结构」。


简单理解就是,不再用碎碎念式思考,重点是在模型内部,直接形成空间+语义+动作的联合表示。类似于人在做事时,并不会在脑中逐句说话,而是直接形成直觉判断。


写在最后


把这场对话放回到整个机器人行业来看,会发现PI的选择,其实非常明确:


  • 在数据上押注真实世界和数据飞轮。


  • 在系统上强调类似操作系统的通用底座。


  • 在模型上,下一步重点放在中层推理与表征方式。


在机器人领域,这是一条更慢、更长,但也更深的技术曲线,而且还要接受短期内难以看到明显经济效益的现实。


所以,对于业务重心都在软件上的PI,数据飞轮并不容易推动,他们更需要将模型算法做到极致,才会有大规模硬件对此买单。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP