本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《马斯克加入 AI Agent 大战:Digital Optimus 试图打造 AI 员工,模拟整家公司运作》
3月11日,马斯克在X上确认了一件很多人还没有完全看懂的事情。
特斯拉与xAI正在联合开发一个新的AI项目,内部称其为「Digital Optimus(数字擎天柱)」,如果单看名字,可能有不少人还会以为这只是特斯拉Optimus机器人的软件版本。
但实际上,Digital Optimus远比简单的机器人进厂要复杂。作为一种新的AI Agent(智能体)架构,它的目标不是要在工厂进行体力劳动,而是先在数字世界中工作,通过操作电脑来模拟整个公司各个岗位的运作。
并且和常规的AI Agent完全不同,Digital Optimus在架构上的选择更加拟人,即通过视觉和推理,让AI像人类一样正常使用电脑工作。

对此,马斯克的描述更加直接:「Grok负责理解世界,Digital Optimus负责实时处理电脑屏幕的视频信息,并执行键盘和鼠标操作。」
并且他还特别指出:「这将是唯一真正的实时智能AI系统,理论上能模拟整家公司的运作。目前还没有其他公司能做到这一点。」
如果这条路线真的能跑通,那AI Agent的技术路线,恐怕就要被彻底改写了。

AI Agent的技术路线存在分歧
过去一两年的时间里,AI Agent成为人工智能最火的方向之一。用户通常只需要给出一个目标,系统就可以自动规划步骤,并通过操作软件完成任务。
像整理文件、自动发送数据这些原本需要人工完成的电脑操作,理论上都可以交给AI来执行。在这种趋势下,AI不再只是回答问题,而是直接可以完成工作。
但问题很快就来了,目前多数AI Agent的技术路线,其实都比较相似。
像OpenAI的Operator、Anthropic的Computer Use等,实际上都在采用一种类似的工作方式:先对屏幕进行截图,再让大模型理解当前界面,然后生成下一步操作。
不断截图,反复推理,系统本质上就是在对着一张张图片进行分析。甚至有时只是个无关大局的点击信息,都会调用大模型来进行分析。
这也就带来了Agent在实际运行时很难进行快速实时操作的问题,并且成本和算力消耗也很大。
而马斯克提出则是另一种思路,Digital Optimus采用System 1+System 2的分层架构,其中:
System 1负责实时视觉与动作执行,由Digital Optimus来处理过去5秒内的实时屏幕视频及键盘鼠标操作。
System 2负责理解任务、推理和规划,由Grok进行指挥,控制Digital Optimus执行。

两者之间更像是直觉本能和理性思考之间的分工合作。这种架构本质上也有一些从「第一性原理」思考的意思,因为人类本身在操作电脑时也是通过看电脑、进行分析、然后再点击鼠标和键盘的。
这种架构也和特斯拉自动驾驶系统的设计非常相似,毕竟自动驾驶的场景并不允许它反复分析单张图片,而是需要持续理解整个视频世界,并在极短的时间内做出动作决策。
Digital Optimus做的事情,其实就是把这套逻辑搬到了电脑端。
这种路线跑通的话,AI Agent很可能就会从截图+推理的模式,转向一种实时感知+分层决策的体系。而这,正是Digital Optimus最值得关注的地方。

在机器人能力还不够用的节点
坦白来说,很多时候我们或许已经习惯了马斯克的「跳票」,比如去年没能成功规模量产机器人。
在今年1月的特斯拉的财报电话会上,马斯克也曾承认,目前并没有任何一台Optimus人形机器人,在特斯拉工厂里真正承担「有用的工作」。
虽然此前他也一直在预热Optimus V3将在今年一季度发布,但就现在全球机器人产业发展的情况看,真正的自主智能和核心硬件卡点,还是难以突破:
自主智能:现实世界充满不确定性,环境变化、物体差异和任务随机性都会影响系统判断。但目前很多机器人的自主能力还是偏向演示,一旦进入开放场景,稳定性就会出现明显下降。
灵巧手:机器人的复杂操作几乎都集中在手部,但灵巧手要同时做到灵活、可靠又耐用并不容易,这也直接影响着机器人的工作能力。
成本:复杂的机械结构和训练投入,导致机器人的整体成本仍然很高。在商业化规模还没有形成之前,大规模部署仍然很难实现。
在这些问题还没有真正克服之前,很多人都觉得机器人规模落地至少还要几年时间,甚至有一些观点认为机器人就是泡沫。
在这种背景下,Digital Optimus的出现就有了另一层含义,它其实代表着特斯拉的一种策略调整,即先让机器人的大脑开始工作。
这也难怪此前马斯克声称自家AI要像人一样操作电脑,从而挑战游戏中的职业战队。
这块小小的电脑屏幕,恰恰是一个相对容易落地的工作环境。
机器人先在数字世界打工
其实早在1月份,外媒eWEEK就有过相关报道,在马斯克的xAI公司中,已经出现了一些AI员工,它们被设计用来模仿真实的白领,来进行一些电脑上的工作。
马斯克如今的官宣,则更加印证了他的「自动化公司梦」可能早就已经开始了,只是没有正式对外公布。
从商业角度看,Digital Optimus的核心目标其实很简单,就是让AI先成为数字世界里的员工。
在现实世界,一个人形机器人要搬运箱子,不仅需要解决视觉、触觉和运动控制等复杂问题,还要考虑电池续航和机械结构的可靠性。
而在数字世界,这些问题几乎全部消失,AI只需要完成两件事,理解屏幕上的信息,并操作软件完成任务。
企业中有大量这样的重复性数字劳动,像整理数据、填表、操作ERP系统等。过去,这类工作通常由RPA(机器人流程自动化)系统完成,但RPA通常只能执行固定流程,在遇到意外情况时容易失效。
而Digital Optimus则不同,它不仅能够理解任务目标,还能根据实际情况做出决策,从而成为像人一样能处理动态信息的角色。
放眼全球,类似的工作内容有很多,所以整个AI员工的市场空间相当可观。
加上马斯克还有着其他企业少有的优势,那就是算力。
作为一家在全球有着数百万辆汽车落地的企业,特斯拉汽车内部搭载的AI芯片其实有机会在部分车辆闲置时,将这些算力进行连接,从而形成一个分布式超级计算机。
这也是马斯克一直以来的想法,如果Digital Optimus的推理成本足够低,从理论上看,特斯拉可以拥有世界上最大的边缘AI网络之一,从而降低AI Agent的运行成本。这也是为什么这个系统会运行在AI4芯片上,而不是依赖云端GPU。
并且相比现实世界中的物理机器人,先在数字世界打工成本会低很多,而且还能为未来的本体机器人提供训练积累,这样的选择显得非常划算。
One more thing
想法好归好,在推出AI员工Digital Optimus时,马斯克还是得先把法律风险处理清楚,因为这事涉及到私人项目和上市公司绑定的问题。
早在2024年,特斯拉的股东就起诉马斯克将特斯拉的AI资源转移到xAI,彼时他也回应道,特斯拉不需要从xAI获得任何技术许可。
但如今特斯拉Digital Optimus的核心推理系统就是xAI的Grok,这也直接触碰到了上市公司治理的底线,怎么才能保证特斯拉的利益不会因为马斯克的私人公司而受损?最终的知识产权又该归谁?
像这种类似的问题还会有很多,毕竟亲兄弟也要明算账,马斯克在推动Digital Optimus规模应用之前,这方面的法律风险也是不得不去面对的问题。
从此之外来看,马斯克的思路还是一如既往,把复杂问题拆成两步解决。自动驾驶如此,SpaceX的航天任务是如此,Optimus也不例外。
当现实世界中的人形机器人还无法高效工作时,他选择先让机器人大脑在电脑里运行。
并将其拆分为Digital Optimus来进行软件降维,这条路顺利的话,未来很可能会出现机器人先成为数字员工后才进入物理世界打工的现象。
从这个角度看,Digital Optimus并不像是折中和无奈的选择,它反而能给机器人的现实应用打下扎实的基础。
