大晓机器人首席科学家陶大程在专访中提出,具身机器人大脑只需保留行动控制必需信息,围绕行动后果建模打造实用世界模型。 ## 1. 重新定义机器人需要的世界模型 当前具身智能领域“世界模型”热度高涨,国内已有33家相关创业公司,累计融资超260亿元,诞生7家独角兽,技术路线繁杂。 陶大程提出,机器人不需要复刻整个世界的全能模型,真正需要的是能在有限条件下学习维护**控制充分状态**的行动后果模型,核心目的是支撑机器人行动决策。 控制充分状态指会改变行动结果的高控制信息密度信息,也就是能减少控制不确定性的信息,无关视觉细节可直接压缩丢弃。 ## 2. 世界模型的核心研发方向 解决“缸中之脑”与真实世界脱节问题的核心思路,是让模型预测结果接受真实任务检验,不能只看模型自洽性。 Kairos选择聚焦从失败中学习,仅保留承载高控制信息密度的失败数据——能清晰关联状态、动作、失败结果与恢复路径的样本,剔除无法归因的无效失败样本,数据管线从收集成功演示转向记录失败规律。 核心技术风险是模型仅学到视觉分布规律,无法应对环境变化与失败边界,若Kairos的想象推演与真实执行相关性不足,当前技术路线就需要修正。 ## 3. 落地路径与行业差异判断 具身智能和传统AI的核心差异:评价标准从纸面精度变为物理代价与安全风险,系统约束从离线优化变为端侧延时、显存的硬限制,数据逻辑从静态大规模标注变为带交互因果的有效数据。 大晓选择巡检作为早期练兵场景,目前该场景多数产品仍依赖固定路径与人工操作,缺失自主决策能力;其次布局前置仓分拣,解决传统刚性方案改造成本高、灵活性差的痛点,长期目标指向家庭机器人。 通往家庭机器人的最大短板是开放场景泛化能力与安全可靠性,落地后将首先替代桌面收纳、家电值守等规则清晰的标准化重复性劳动。 ## 4. 创业团队的技术定位与目标 大晓的核心判断是当前机器人硬件已成熟,但机器人大脑能力严重滞后,本体与大脑的落差是行业核心结构性机会。 团队规避传统AI路径惯性,坚持以行动控制为核心,不纠结技术路线名称,只要能稳定实现动作结果建模、满足真实任务需求就是有效方案。 项目的终极目标是通过物理AI把人从劳动中解放出来,让人有更多时间投入更有价值的探索。
独家对话大晓机器人陶大程:具身机器人大脑,不必装下整个世界
2026-07-02 17:18

独家对话大晓机器人陶大程:具身机器人大脑,不必装下整个世界

本文来自微信公众号: 甲子光年 ,作者:周悦 寇雨然,编辑:王博,原文标题:《独家对话大晓机器人陶大程:具身机器人大脑,不必装下整个世界|甲子光年》


机器人拿起一个杯子,真的需要理解整个世界吗?


陶大程的回答是:不需要。甚至恰恰相反,机器人首先要学会的,可能是忽略那些与行动无关的信息。


它不必知道桌面花纹,也不用预测窗外的树影。它只需要知道杯子在哪,是什么形态、多重、该从哪里抓,以及万一抓失败了怎么补救。


陶大程将这类行动相关状态称为“控制充分状态(Control Sufficient State)”。他认为:“会改变行动结果的信息,就是有价值的信息。”


今年,“世界模型”成了具身智能领域最热的词之一。IT桔子6月发布的报告显示,国内已经有33家创业公司发布世界模型,累计融资超过260亿元,其中7家已经成为独角兽。


热度越高,概念也越杂。VLA(视觉-语言-动作模型)融合派、原生派,还有3D空间派、物理仿真派等各执一词。当所有人都在讲世界模型时,什么样的世界模型,对机器人真正有用?


在陶大程看来,模型或者技术路线叫什么并不重要,关键在于它能不能落到“行动后果”上。机器人不能只学会“看见什么就做什么”,还要知道“做了之后世界会怎样变”。


Kairos要解决的,不是生成一段足够逼真的未来状态画面,而是在机器人行动前判断:不同动作会带来什么后果,哪里可能失败,失败后是否还能恢复。


这也意味着,Kairos必须直面两件事:机器人怎么从失败里学习,部署能不能跟上真实行动节奏。“失败数据”和“部署效率”,由此成了它的另外两个关键词。


尽管提出了新概念,陶大程认为Kairos还只是对这个目标的一次早期系统性尝试。


这是陶大程加入大晓机器人以来首次接受专访,他和「甲子光年」对话了两个多小时,这也是亚洲AI科学家中少见的一次围绕“世界模型”展开的系统长访。


陶大程,图片来源:大晓机器人


本文,「甲子光年」独家对话大晓机器人首席科学家、新加坡南洋理工大学杰出教授陶大程,由「甲子光年」整理编辑,在不改变原意的基础上有所删改。


1.大晓要定义怎样的世界模型


甲子光年:过去一年,我们发现很多具身智能团队从VLA转向世界模型。你觉得这是技术路线的收敛,还是行业在寻找新的融资叙事?


陶大程:我认为首先是技术路线在真实物理约束下的自然收敛。当然,行业现在也确实处在边界和概念还没有完全稳定的探索期。


单纯的VLA,在从观察、语言到动作的模仿学习上是有效的。但机器人一旦进入真实部署,就必须回答更复杂的问题:如果这样行动,世界会发生什么变化?哪里可能失败?是否会带来安全风险?


大家转向世界动作模型(World Action Model)或统一世界模型(Unified World Model),反映的是行业从“观测-动作映射”走向“动作结果建模”的需求。


甲子光年:所以,机器人真正需要的世界模型是什么?


陶大程:现在很多世界模型都是一个复刻世界的视觉生成器,但机器人真正需要的应该是一个能够在有限观察、有限算力和有限真实试错条件下,学习并维护“控制充分状态”的行动后果模型。核心是要支持未来行动决策。


甲子光年:如果世界模型并不需要生成所有视觉细节,而是要帮助机器人做行动决策,那从这一点来看,大晓的Kairos和其他团队提出的World Action Model、Unified World Model相比,最核心的区别是什么?


陶大程:差异不会简单停留在大家对于目标或架构的定义上,而是真实机器人实际任务中的成功率、泛化能力、失败预测、安全过滤、恢复能力和部署效率上。


世界模型,图片来源:大晓机器人


甲子光年:世界模型会不会有“缸中之脑”的风险?它在大脑里生成或预测的东西很自洽,但和真实世界脱节,比如执行过程中接触失败,反馈不一致。你们的模型或方法怎么解决这种问题?


陶大程:没错,这从目前来看是一个长期问题,不是短期就能直接获得结果的事。


我们的思路不是简单相信模型在“大脑”里生成出来的东西,而是要让它和真实执行发生连接。世界模型如果只是预测一个看起来很自洽的未来,但执行时接触失败、反馈不一致,那对机器人来说是不够的。关键是看它想象出来的结果,和真实执行能不能对得上。


当然,AI有时会给出一些和人类直觉不一致、但最后被证明有效的方案,比如AlphaGo第37手,或者是那个反直觉的天线设计。但这恰恰说明,不能只用人的直觉判断模型,而要看它能不能被真实任务结果验证。


2.真实任务结果才是最终检验目标的金标准


甲子光年:刚才你提到,真实机器人要以最终结果为导向,看任务成功率、泛化能力、安全过滤、恢复能力和部署效率。这些能力是需要逐点突破,还是有一套新的算法或方式让它们全面提高?


在具身智能里,理解世界、预测世界、未来采取什么行动,以及真实部署,过去往往是相对割裂的。


传统路径里,我们分别优化世界理解、视频生成、动作模仿或仿真规划,但真正的机器人需要的是维护一个足以支持行动决策的控制充分状态的统一目标。


甲子光年:这种一体化架构具体是怎么做的?


Kairos模型框架,图片来源:大晓机器人


甲子光年:你反复提到的“控制充分状态”是什么?


陶大程:其实就是那些能支撑控制,或者说机器人的动作的关键状态。本质上是一种信息集合。


比如说我现在要让机器人抓一个杯子,它不该为了抓杯子而复制所有的信息和细节。桌面花纹是什么,窗外的树长什么样,杯子的阴影和光照条件这些对它来说都不重要。


其实它只要去关心杯子的把手,也就是可操作的点在哪,里面有没有装满水,这是杯子的重量,这告诉机器人需要施加多大的力,还有就是杯子在桌面上什么位置,杯子是不是靠近桌边,应该从哪个角度抓这些问题。


甲子光年:你说“控制充分状态”这个概念强调的是信息,Kairos怎么判断哪一类信息对于控制是必要的?哪些要丢掉?


陶大程:这是很关键的问题,我们认为会改变行动结果的信息,就是很有价值的信息。


比如,任务的目标、物体的位置和姿态、空间的关系、机器人自身的状态、接触条件、摩擦系数,可抓取性,还有任务的进度,相关候选动作的后果,失败的边界等等,其实是非常多的。


相反呢,像物体的纹理,背景、光照,还有一些装饰性的这种信息,或者是跟物体无关的信息都可以被压缩掉。


我们为此正在构建一个判断框架,就是控制信息密度。它的核心是衡量信息对控制变量本身的预测能力是否有直接价值。


甲子光年:怎么衡量什么是控制信息密度更高的数据,什么是更低的数据?


陶大程:控制信息密度可以理解为,一段数据在单位采集、标注、计算和风险成本下,能够减少多少和控制相关的不确定性。


有价值的数据,就是能够减少控制不确定性的数据。如果信息对降低控制不确定性没有帮助,就没有价值。


比如人和人沟通,本质上是为了获取信息。如果沟通半天好像没有多知道什么,那就是无效沟通,基本上是这个道理。


甲子光年:听起来,这个世界模型“大脑”需要考虑很多控制变量,这会影响执行任务的速度或判断速度吗?另外,像工厂搬货这样的长程任务,下一个动作和现在动作之间环境可能会变,它能很快完成下一步吗?


目前,系统整体效率仍有较大的提升空间。随着未来硬件性能、模型能力以及优化技术的不断进步,其运行效率有望实现进一步提升。


等效率达到更高水平,你刚才谈的问题就不会是主要问题。但今天大家可能都还面临这个挑战,毕竟端侧计算能力还是非常有限。


3.失败数据、模型能力与技术路线的颠覆


甲子光年:你们在评测任务时,最关心哪类任务?


陶大程:Kairos在评测时更关注两类任务:一类是embodied world-model benchmarks,用来检验物理合理性、指令对齐和时序一致性;另一类是world-action benchmarks,例如机器人操作与泛化任务,用来检验联合建模世界动态和动作演化是否真的改善动作预测与manipulation performance。长时生成和推理效率也重要,但它们主要是对多时间尺度状态维护和部署可行性的代理评估,而不是最终目标。


实际成功率最终应该在真实或高保真机器人任务里评估:看任务完成率、扰动条件下的泛化成功率、失败率、安全事件、恢复成功率,以及模型在给定延迟和显存约束下能否稳定运行。目前,Kairos还在进一步验证imagined rollout和真实rollout的相关性、同一初始状态下不同动作分支的预测是否准确、失败能否提前预警、安全过滤是否减少unsafe actions,以及imagined experience是否带来真实policy improvement。


甲子光年:怎么评估这些任务的实际成功率?


实际成功率最终应该在真实或高保真机器人任务里评估,看任务完成率、扰动条件下的泛化成功率、失败率、安全事件、恢复成功率,以及模型在给定延迟和显存约束下能否稳定运行。


目前,Kairos还在进一步验证imagined rollout和真实rollout的相关性、同一初始状态下不同动作分支的预测是否准确、失败能否提前预警、安全过滤是否减少unsafe actions,以及想象经验是否带来真实策略提升。


甲子光年:你们在评估Kairos,包括其他世界模型时,最关心的指标是什么?


陶大程:对于具身来说,最核心的指标不应该是“生成视频有多逼真”,而应该是控制充分性:模型内部状态是否真的保留了机器人行动所需的信息。按照这个标准,视频清晰度、时序一致性、指令对齐仍然重要,但它们只是必要的代理指标;真正重要的是这些能力是否帮助机器人更稳地完成任务、更早发现失败、更安全地选择动作。


下一阶段最关键的指标将回到真实机器人:任务成功率、跨任务/跨场景/跨本体泛化能力、失败预测准确率、安全过滤效果、恢复成功率、推理延迟/显存成本,以及imagined rollout是否真的和真实rollout相关。


甲子光年:让机器人学哪里会失败、失败后如何恢复,这是不是意味着要从失败数据中学习?怎么区分哪些失败数据值得二次学习,哪些应该彻底剔除为脏数据bad case(失败案例)?


陶大程:是的,但失败数据不是越多越好,关键要看失败数据本身是否承载了高控制信息密度。它是否清楚连接了当前状态、采取的动作、受力变化、失败结果,以及恢复路径。


有学习价值的失败,能减少模型对动作后果、失败边界等的不确定性。比如抓取滑落、碰撞,或者遮挡导致的误判,这类数据能告诉模型哪里会坏、为什么会坏、坏了以后如何恢复,从而实现未来成功。


而那些只体现噪声、无法提供可迁移控制信息的失败样本。比如画面很模糊,运动模糊导致看不到接触点;或者动作和视频不同步;或者失败原因无法归因,最后不知道哪里错了,这类数据就是无效数据。


还有很多没有经过有效校准的合成数据,会产生很多现实生活中根本不会发生的错误;还有一些随机扰动等。


甲子光年:也就是说既要考虑失败数据,又要判断数据信息密度,你们的数据管线和行业常规做法有什么不同?


陶大程:行业里更常见的做法是收集成功演示、清洗高质量视频、批量做模仿学习。


我们的数据管线强调的是,从记录任务如何成功,转向记录为什么会失败、什么时候会失败、失败以后应该如何恢复,就像我前面谈到的。


我们不仅要做短片段分割、质量过滤、良好标注等高吞吐数据处理,还需要通过干预等级、物理事件、失败恢复等标签,把数据变成可检索、可采样、可以用于构造控制充分状态的训练资产。


目前我们正在努力把数据采集标准,从视觉规模和成功轨迹,推进到是否能够减少动作后果、失败边界和安全风险不确定性的方向。


核心还是一句话有质量的规模才是真正的规模。


甲子光年:未来有没有可能,一个更强的VLA或其他技术路线也实现这些能力,从而绕过现在所谓的世界模型?


陶大程:有这种可能。所以我认为,名称本身不是最关键的,最关键的是模型最后是不是真正落到了动作结果建模这个基础能力之上。


如果未来某个更强的VLA模型,能够在内部学习足够的控制相关信息,并且能够在真实机器人任务中表现出稳定泛化和低延迟部署能力,即便它不叫世界模型,它在功能上也实现了世界模型的核心能力和目标。


我们的判断是,短任务、封闭场景、数据覆盖充分的问题,对于端到端VLA来说已经足够。这也是为什么很多团队一开始做端到端VLA,用遥操数据,见效很快。只要测试场景和训练场景高度一致,VLA的效果就会很好。


甲子光年:你当前最关注的技术风险是什么?


陶大程:我们最担心的是,模型学到的世界状态并不是稳定的控制变量,而只是数据和视觉分布的规律。它能够有效合成未来,但一旦面对环境变化、失败边界和常识任务状态,就没有办法形成准确判断。


甲子光年:在什么条件下,你们当前的判断和路线可能会被颠覆,或者需要修正?


陶大程:如果Kairos这类世界模型中想象推演和真实执行的相关性不高,不能区分同一个初始状态下不同动作的真实后果,那也说明它作为Physical AI核心闭环条件的真实性还不确定。


世界模型的核心,在于模拟未来的可能性,并具备足够决策力以选择合理轨迹完成任务。


4.从世界模型到真实场景


机器人拿起水壶浇花,图片来源:大晓机器人


甲子光年:过去一年,具身智能的风向变化很快,从数据采集、模型路线,到世界模型、以人为中心(human-centric)等概念不断变化。大晓在技术路线选择上,有没有经历过比较大的转折?


当然,也许未来有一天我们的判断会出现误差,团队也可能面临选择。即便未来发生变化,也更可能是一个合理的技术战略调整,而不是非常艰难的技术折中。


甲子光年:进入具身行业之后,你们发现它和过去做AI最大的不同是什么?更关键的约束是什么?


陶大程:最核心的差异,是从数字世界进入物理世界,整个技术逻辑发生了重要转化。


第一,评价标准不一样。过去做视觉人工智能或者通用人工智能,比拼的是纸面目标、识别精度、模型效果、误差等。在具身里,它对应的是物理代价、任务中断和安全风险。


第二,系统约束完全不一样。过去我们关心离线优化、单模块迭代,算力不足时可以找更多计算资源解决。但具身要跑通感知、决策和执行的真实闭环,延时、显存、硬件都是限制条件。脱离真机部署,模型能力就缺失了实际意义。


第三,数据逻辑完全不一样。过去靠标注好的静态样本就能训练,追求的是数据规模。现在要关心带交互、带失败、带因果反馈的有效数据。失败边界和故障恢复过程的价值,高于海量普通成功样本。


甲子光年:目前具身智能行业整体落地都不容易。一方面,技术走得很快;另一方面,客户场景未必马上需要特别复杂的模型。大晓怎么平衡前沿研发和真实落地?


陶大程:我觉得具身产品和研究的关联度非常高。具身产品本身复杂度很高,对研究依赖很强,所以两者之间不存在核心矛盾。


从落地路径来看,巡检是我们最早期的场景切口。这个行业今天远没有达到非常饱和的阶段。市场上大多数机器人或者机器狗,还停留在固定路径导航、远程人工操作阶段。对于开放环境下的自主决策、异常识别和相关处置能力,普遍是缺失的。


另一个方向是前置仓分拣。传统自动化方案依赖刚性设备,只适配固定SKU和固定动线,改造成本很高,也不具备足够灵活性。


甲子光年:巡检机器狗和前置仓分拣听起来像两个完全不同的场景,和你们最终要做家庭场景有什么关系?


巡检是结构化程度高、风险可控的练兵场,可以积累开放环境导航和异常感知能力。


甲子光年:大晓长期会指向家庭机器人。你认为通往家庭机器人最大的短板是什么?当机器人真的进入家庭,它会首先替代人的哪一部分劳动?


陶大程:这是我们在一定时期的核心目标。目前来看,最大的短板是开放场景泛化能力和安全可靠性。


今天不管是电池、伺服电机,还是硬件本体技术,都越来越成熟。算力也可以通过云端协同逐步适配。


但家庭环境高度非结构化,而且是人机共存,对模型的风险预判、异常处理和安全交互能力要求非常高。


这些都是比硬件更难突破的核心瓶颈,也是我们有必要打磨Kairos-HomeWorld模型的核心原因。


当机器人真正走进家庭,它首先会替代低风险、标准化的劳动,也就是流程清晰的结构化服务。


比如洗衣机等家电的操作值守,沙发、床之类的标准化整理,桌面收纳等重复性比较强、规则相对明确的工作。


5.商汤基因、科学家和产业老兵


甲子光年:外界对科学家创业常有一个质疑,算法和Demo能力很强,但真正落到产品交付和批量部署,尤其会有难度。你怎么看这个质疑?大晓怎么补齐从技术到交付的鸿沟?


甲子光年:大晓有商汤背景。商汤除了带来算法、算力和产业资源之外,会不会也带来某些惯性思维?


陶大程:路径惯性是所有成熟团队都会面临的问题。大家很容易把过去的想法,从传统人工智能直接带到今天的具身人工智能或物理AI(Physical AI)上。但我们从底层就开始规避这种简单平移思路。


具身智能的核心是行动控制,而不是视觉识别,我们提出的控制充分状态、行动代价最小化等底层逻辑,本身就是对传统视觉范式的突破。


甲子光年:你和王晓刚为什么决定合作创业?


陶大程:这几年机器人硬件本体的进步有目共睹,机械臂、人形机器人,它们的运动控制、硬件精度都已经达到比较合理的水平,但大脑能力一直没有跟上。


行业里很多机器人还停留在定点表演、脚本化表演阶段,没办法真正稳定干活。我们判断这种本体强、大脑弱的落差,是目前行业最大的结构性机会。


这也是为什么我们判断,有必要做一个真正能够落地的机器人大脑体系,把硬件潜力有效释放出来。


甲子光年:你和王晓刚是师兄弟,之前还是同寝室室友。两位在创业分工和技术信仰上有什么默契?


陶大程:我们都认为,物理AI(Physical AI)是下一个10年人工智能领域里最重要的赛道。


我主要聚焦前沿技术思考,在世界模型、具身认知、因果推理等最前沿技术方向上,不断探索技术边界。


甲子光年:现在很多自动驾驶、硬件工程团队也进入具身智能,他们可能在工程和落地上推进更快。大晓的人才阵型怎么搭?怎么避免技术团队偏论文导向,而不是落到真实场景?


甲子光年:这种协同具体怎么发生?科研团队和产品、工程团队之间,怎么保证不是两套系统?


陶大程:今天最优秀的青年科学家,更关心的是技术本身能不能带来影响力,有没有实际价值。


这个目标和产业落地本身是一致的。不需要设置一个KPI来裹挟大家完成任务。


如果想发高质量论文,想做高水平研究,想让大家认可研究成果,就一定要把自己绑定在“机器人能不能在真实场景中稳定干活”这个目标上。


甲子光年:很多做语言模型的人喜欢用维特根斯坦解释,比如“语言的边界就是世界的边界”。但对具身智能来说,世界的边界不只是语言,还有身体控制和动作反馈。作为一个喜欢西方哲学的科学家,如果用一位哲学家解释你在具身领域的思考,你和谁的共鸣最深?


陶大程:我比较喜欢尼采的一句话:“人之所以伟大,是因为他是一座桥梁,而非目的。”


我们做具身智能的目标也是一样,希望合理解决人在劳动中受到的约束,把人的能力真正从劳动中解放出来,让人有更多时间思考更有趣、更伟大的事情,去实现下一个阶段的目标。


至于下一个阶段是什么,目前可能还不知道。但从今天看,物理AI是一个必然的发展路径。人类总是能够在面对变化的过程中,不断修正自我价值,提升自我能力,来应对社会变化。


在技术快速变革的过程中,不必产生过度担忧,但核心还是要学会适应社会发展。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP