2026-07-02 20:43

没有基座模型，都不好意思做机器人了

本文来自微信公众号： 42号电波，作者：Vince，编辑：大吉

2025年后，很多人以为具身智能已经热过一轮了。本体、关节、灵巧手、供应链，故事都不陌生。再往后，无非是谁走得更稳、搬得更准、交付得更多。

但2026年上半年，答案又变得没那么确定。

因为桌上的关键词换了。去年大家还在看机器人能不能站起来、跑起来、进工厂；今年很多人重新回到牌桌，是因为「机器人大脑」又把想象力抬了起来。VLA、世界模型、具身基座模型、数据闭环，这些词开始频繁出现在融资材料、路演现场和投资人饭局里。一边是泡沫焦虑，一边又不得不承认，热钱并没有散，反而流向了更具体的地方。

公开融资信息也能看到这种变化。6月底，自变量机器人披露两个月内连续完成B轮至C轮四轮融资并全部交割，投后估值超过200亿元；同一天，智平方完成近50亿元系列融资，估值也升至200亿元以上。而再往前，极佳视界三个月累计融资约35亿元，千寻智能三个月累计融资超45亿元，银河通用则在3月完成25亿元新一轮融资。

融资热还在，但它已经不再只奖励「造出一台机器人」，而是开始追问：谁能先把机器人变成一个真正可泛化、可学习、可持续进化的智能体。

VLA，让机器人从「看见」走向「行动」

VLA（Vision-Language-Action）也就是视觉、语言、动作模型。它的目标很直接：让机器人看到环境、理解人的指令，然后输出动作。比如人说「把桌上的红色杯子放进水槽」，VLA模型要处理的不是一句话，而是一整条链路：识别杯子，理解水槽位置，判断抓取姿态，规划动作，再生成机械臂、灵巧手或整机的控制指令。

这也是为什么VLA被认为是目前最接近产品化的具身基座模型路线。它离Demo近，离真实任务也近，容易和物流、制造、零售、家庭服务等场景发生关系。

国内这一路线的升温非常明显。

千寻智能是2026年上半年最有代表性的公司之一。6月，千寻智能宣布完成15亿元A+轮融资，3个月内四轮融资累计超过45亿元。公司同时强调，其自研具身基座模型Spirit v1.6在RoboArena具身智能基准测试中登顶。这个成绩仍需要在更多公开、可复现任务中继续验证，但资本的态度已经很直接：如果一个中国团队能在真实物理交互评测中拿出国际可比的模型成绩，它就会被迅速推上牌桌。

智平方的代表产品是GOVLA全域VLA大模型和AlphaBot系列机器人。2月，智平方曾完成超10亿元B轮融资；6月29日，公司又宣布完成近50亿元系列融资，估值超过200亿元。它的路线很典型：一边做端到端VLA模型，一边做可以承载模型能力的本体，还要把产线和交付能力一起补上。换句话说，不只是「我有脑」，还要证明「我有身体、有工厂、有客户」。

银河通用则把VLA和场景落地绑得更紧。过去一年，银河通用推出GraspVLA、GroceryVLA、TrackVLA、NavFoM等模型能力，并在零售、工业、仓储物流、医疗康养等场景推进部署。2026年3月，银河通用宣布完成25亿元新一轮融资；再往前，2025年末它刚完成超3亿美元融资。短短几个月，融资额已经足够让许多同行感叹：机器人还没累，投资人先跑起来了。

灵初智能也属于这一类。它以端到端VLA模型为核心，配合Psi-SynEngine具身数采引擎、双臂轮式机器人、灵巧手和外骨骼设备。2026年3月，灵初智能披露已完成天使轮和Pre-A轮合计20亿元融资，资金将投入物流场景规模化应用和大规模数据采集解决方案。

这些公司的共同问题是：机器人能不能从「按程序执行」，推进到「理解任务后生成动作」？

但VLA也有明显短板。它可以让机器人学会「怎么做」，但未必真正理解「做了之后会怎样」。当任务变长、环境变复杂、需要多步规划和纠错时，单纯的VLA很容易遇到瓶颈。

世界模型，让机器人先在脑子里「预演」

世界模型听起来比VLA更抽象，但它解决的问题其实很朴素。

机器人不能像大模型写错字一样，随便在现实世界里试错。一个机械臂抓错位置，可能打翻杯子；一个移动机器人判断错路径，可能撞到人；一个人形机器人在工厂里执行错误动作，可能造成安全事故。

所以，机器人需要在真正行动之前，先预测这个动作会带来什么结果。

如果说VLA解决的是「看到指令后应该做什么」，世界模型解决的是「如果我这么做，世界会怎样变化」。

它可以用于规划，也可以用于仿真训练、合成数据生成、任务评测和失败预判。更重要的是，它给具身智能行业提供了一个可能的scaling方向：真实机器人数据太贵，那就尽量让机器人先在虚拟世界里练，练到值得上真机时再上。

国内最近融资最密集的世界模型公司，是极佳视界。

极佳视界的对外叙事很明确：世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker，以及面向家庭和工业的泛化场景。2026年3月，极佳视界完成近10亿元Pre-B轮融资；4月完成15亿元B1轮；6月15日又披露完成10亿元B2轮。也就是说，3个月内连续3轮，合计约35亿元。

这背后有一个行业共识：只靠真实机器人采集数据，成本太高、效率太低，也很难覆盖足够多的长尾场景。如果世界模型能对物理世界进行预测，机器人就可以在虚拟环境中进行大量预演，再把更有价值的策略迁移到真实世界。

星源智是另一个重要样本。它由北京智源人工智能研究院孵化，定位是具身大脑和世界模型，不直接做机器人本体。2026年6月，公司披露完成新一轮融资，成立10个月累计融资10亿元。对于一家不卖本体、重点做「脑」的公司来说，这个速度本身就说明了资本正在重新定价模型层。

苏度科技则是更偏「世界模型+强化学习」的路线。2026年4月，苏度科技发布Sudo R1，并宣布完成新一轮融资，估值突破20亿美元。它强调3D世界模型与强化学习一体化设计，在不使用真机数据的前提下，通过仿真训练实现高成功率的zero-shot操作。这类说法同样需要更多公开测试来校验，但它指向的问题很关键：具身智能能不能不完全依赖昂贵的真机示教数据？

世界模型路线最大的吸引力，是它更接近具身智能的长期瓶颈。

VLA可以让机器人执行动作，但世界模型可能决定机器人能不能处理长程任务、未知环境和稀有场景。

但世界模型的问题也同样明显：它离收入更远，离真实落地更难验证。一个世界模型是否真的理解物理世界，不能只看生成视频有多逼真，而要看它能不能帮助机器人更可靠地完成真实任务。视频像，不等于物理准；仿真里会，不等于工厂里稳。

VLA+世界模型，机器人大脑开始合流

VLA和世界模型并不是两条完全割裂的路线。更可能的未来，是两者合流。

VLA负责理解任务并生成动作，世界模型负责预测结果、辅助规划、降低试错成本。一个偏执行，一个偏预演。一个让机器人动起来，一个让机器人在行动前先想一想。

NVIDIA在Cosmos等物理AI平台中也在强调World Action Model，也就是把世界模型和动作模型结合起来：模型既要表征和预测场景如何随时间变化，也要输出机器人动作。这个方向把具身基座模型的竞争从「谁能看懂并行动」，推向「谁能想象后果并行动」。

国内最适合放进融合路线的公司，是自变量机器人。

自变量机器人早期强调WALL-A系列操作大模型，2026年4月发布基于「世界统一模型」架构的WALL-B，把视觉、语言、动作、物理预测等能力放进统一架构训练；6月又发布以事件中心为特征的WALL-WM。资本也在同步加速。公司继4月完成B轮融资后，又连续完成B+、B++和C轮融资，2个多月完成四轮并全部交割，投后估值超过200亿元。

星海图也在靠近这条路线。它推出了G0 Plus通用具身智能基础模型，并配套R1/R1 Pro轮式双臂机器人和DEXO灵巧手。2026年2月，星海图完成近10亿元B轮融资；4月又完成近20亿元B+轮融资，估值超过200亿元。星海图的融资叙事里，既有本体，也有真实数据路线和世界模型能力。

至简动力则像自动驾驶路线向具身智能迁移的一次实验。公司由原自动驾驶团队转向具身智能，2026年3月首次官宣融资：成立半年不到完成5轮，累计金额20亿元。它提出的LaST0基座模型，强调融合世界模型的物理预测能力和VLA的快慢思维。

它石智航是另一个强势进入牌桌的新玩家。2026年4月，它石智航完成4.55亿美元Pre-A轮融资，刷新中国具身智能单轮融资纪录。公司围绕通用具身大模型AWE 3.0、真实世界多模态数据集，以及灵巧手和机器人本体展开。它的技术标签里有VLA，也有触觉、世界模型、强化学习和真实工业场景，属于典型的「我全都要」路线。

无界动力也在6月末加入这轮融资热。6月26日，公司宣布完成超2亿美元天使轮融资，资金将用于具身通用大脑研发、技术基础设施建设以及全球规模化交付，同时Pre-A轮近2亿美元融资也接近完成。对一家早期公司来说，这样的融资规模已经不像天使轮，更像是资本提前买下下一轮入场券。

智元机器人也不能忽略。它的特殊之处是同时拥有本体、数据集、仿真平台和模型能力。2026年4月，智元发布Genie Operator-2，并围绕AGIBOT WORLD 2026数据集、Genie Sim 3.0仿真平台、世界模拟器等构建开放生态。对于具身智能来说，这不是单点模型，而是一个从数据、仿真、模型到本体的平台系统。

所以，一个重要信号是：

只讲VLA的公司，会被问长程规划和物理预测能力。
只讲世界模型的公司，会被问真实机器人执行能力。

真正能打动资本的，可能是既能行动，又能预演，还能把数据、仿真、本体、场景串起来的模型系统。

资本在押注进化中的大脑

为什么资本开始重估机器人大脑？

原因之一，是本体正在变得相对同质化。

过去几年，人形机器人、轮式双臂机器人、灵巧手、四足机器人都在快速迭代。硬件当然仍然重要，但仅靠硬件参数，很难支撑一家公司的长期估值。尤其当供应链成熟、零部件成本下降、整机形态逐渐收敛后，投资人会自然追问：你的不可替代性在哪里？

原因之二，是数据成本正在逼出新路线。

具身智能的数据不像文本数据，可以从互联网上直接抓取。机器人数据需要真实设备、真实操作、真实场景，采集成本高，标注难度大，还存在安全风险。所以行业开始寻找几种补充方式：遥操作数据、外骨骼采集数据、UMI/Ego视角数据、仿真合成数据，以及世界模型生成数据。

原因之三，是大模型行业需要新的增长故事。

语言大模型的竞争已经从参数、榜单走向产品和场景。具身智能则给了大模型一个更大的想象空间：从生成文本，走向改变物理世界。这个故事足够大，也足够贵，刚好适合资本市场发挥想象力。

不过，现在还远没有到定胜负的时候。

VLA路线的问题，是真实场景泛化仍然难。Demo可以完成一个任务，不代表机器人可以连续稳定工作8小时。

世界模型路线的问题，是验证标准还不够清楚。视频预测得像，不等于物理预测得准；仿真中有效，也不等于真实机器人可用。

融合路线的问题，是系统复杂度更高。它既要模型能力，也要数据能力、仿真能力、本体能力和工程落地能力。说起来像全能选手，做起来更像每天都在补考。

所以，这一轮融资更像是具身智能行业的一次路线投票。

资本正在用钱回答一个问题：未来的机器人公司，核心资产到底是硬件本体、场景数据，还是可以迁移的机器人大脑？

目前看，答案正在向「机器人大脑」倾斜。

但这个大脑最终会长成什么样，还没有标准答案。

短期看，VLA更容易落地，因为它能直接绑定任务和机器人本体。

中期看，世界模型会变得更重要，因为真实世界试错太贵，长程任务离不开预测和规划。

长期看，VLA+世界模型融合可能才是更完整的方向。机器人不只要听懂指令，也要知道每个动作会把世界推向哪里。

这也是具身智能这轮融资最值得看的地方：

人们在寻找第一个真正能理解、预演并改变物理世界的机器人大脑。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP