本文来自微信公众号: 未尽研究 ,作者:未尽研究
Sora APP下架了,还有开发者API、ChatGPT内支持视频功能,以及与迪士尼的10亿美元合资计划,统统下架了。许多人没有想到,这一款几乎与ChatGPT和o1齐名的视频生成模型,这么快就被OpenAI宣判了死刑。
当初Sora发布,逼真效果何等惊艳,在网络上产生了大量宣泄好奇和情绪的视频,人们以为其前景足以颠覆好莱坞。AI视频又是吞噬token的黑洞,人们对于token经济、对于算力基础设施、对于GPU芯片的增长预测,相当一部分建立在AI视频的基础之上。
Sora财务与战略的双重溃败
Sora之死,并非源于技术上的主动放弃,而是财务崩溃后的被动收缩。2025年9月底,Sora推出独立App,在各大应用商店几天内名列榜首,下载量峰值达330万次,但到2026年2月已骤降至110万。更致命的是:应用内购收入仅为210万美元,而OpenAI每天在AI视频生成上的支出高达1500万美元,潜在年度耗资超过50亿美元。Sora负责人Bill Peebles曾公开承认,Sora的经济模型目前完全不可持续。

三重死穴使视频模型的独立商业化几乎无路可走:其一,算力消耗极大,短期内难以克服;其二,深度造假(Deepfake)带来重大安全与法律风险,各国政府严格监管,中国已出台AI视频标注与生成授权的专项措施;其三,训练数据版权问题悬而未决,字节跳动的Seedance 2.0也因此暂停全球发布。就在Sora宣布下架的前一天,OpenAI还在发布视频内容安全措施,某种程度上也是一种无奈的交代。
目前真正引领AI视频赛道的,已是谷歌的Veo 3和字节的Seedance 2.0,争夺消费视频之王;视频功能主流形态是集成进多模态模型——Veo在Gemini里,Seedance在豆包里,万相在千问里。AI视频的独立产品化实验,以Sora的失败宣告阶段性终结。
OpenAI CEO奥特曼(Sam Altman)向员工表示,结束Sora将释放资源用于下一代AI模型。OpenAI的战略意图已非常清晰:用Codex应用与ChatGPT、浏览器合力打造桌面超级应用,将重心重新集中于企业与开发者客户——而Anthropic已在这一领域取得相当大的先机。
OpenAI在重归语言模型吗
Sora的失败,表面看来是OpenAI正在回到它所赖以起家的大语言模型(LLM)。它用语言模型开辟了AGI之路,但是真正坚持语言模型并且可能已经打通这条路径的,是Anthropic,其创业团队正是OpenAI的一群叛将。
但是在去年底,AI圈内一度弥漫着对于LLM的批判,并且掀起了一股世界模型(World Model)的热潮。图灵奖获得者杨立昆(Yann LeCun)持续多年认为,LLM只是基于文本这一单一知识形式,让我们误以为它们是智能的,实则对现实的理解极为肤浅,并将LLM定性为通向人类级智能道路上的出口匝道、一个分心之物、一条死路。他的论据不无道理:LLM虽能通过律师考试、求解方程,但我们至今没有一个能与猫媲美的家用机器人,语言只是思想的序列化版本,是一个相对低维、离散的空间。
杨立昆于2025年底离开Meta,创立AMI Labs,专注于世界模型研究,其公司融资估值已达30亿欧元。他在英伟达GTC演讲中明确表示:仅仅扩大规模无法让我们达到AGI。
然而,杨立昆的批评存在一个关键盲点:他的靶子是静态的、封闭的、纯文本预测的LLM,而不是嵌入在行动—感知—反馈循环中的智能体化LLM。两者在本质上已是截然不同的系统。Sora的失败,恰恰证明了多模态扩展并不是解题的钥匙;而编码智能体的崛起,正在以另一种方式回应他的挑战。
Anthropic:编码是LLM走向AGI的符号世界具身性
Anthropic一直坚持语言模型路线,自己不玩图像视频,可以调用其他应用或技能来完成。Claude Code还用命令行(CLI)复古了。外界曾视此为保守,如今看来是洞见。
在SWE-bench Verified(真实GitHub软件工程问题评测)上,Claude Opus 4.5得分达80.9%,超越GPT-5.1和Gemini 3 Pro。但这不只是一个工程成就,背后有更深刻的认知逻辑:
代码是一种有接地真相(ground truth)反馈的形式化世界——编译器不会撒谎,测试通过或失败,提供明确的现实反馈,调试过程要求模型经历感知-行动-观察-修正的完整循环。这恰好部分回应了杨立昆的核心指控——LLM没有感知反馈、缺乏物理世界锚点。编码智能体通过工具使用和代码执行,在符号世界中获得了一种具身性。
Claude Opus 4.5还展示了一个更引人注目的特性:能自主精炼自身能力——在4次迭代中达到峰值性能,而其他模型经过10次迭代也无法达到同等质量,并展示出跨任务经验学习的能力,能储存洞察并在之后应用。这不是单纯的扩展,而是在架构不变的前提下,通过智能体框架涌现出的新能力。
数据印证了这条曲线的加速性:AI自主任务的执行时间视野每4至7个月翻一倍(2024-2025年已加速至约4个月)——30分钟时能自动补全代码片段,4.8小时可重构整个模块,多天任务则可自动化完整审计。这是一个完全不同于纯文本扩展律的能力涌现曲线。
OpenAI的醒悟与重组
OpenAI也醒悟过来——编码正是通向认知领域AGI的路径。Codex的发布逻辑已说明一切:所有事物都由代码控制,智能体在推理和生成代码方面越出色,它在所有形式的技术和知识型工作中就越有能力。
沃顿商学院研究AI与创新的莫立克(Ethan Mollick)教授观察到三种路线的分野:Anthropic专注于语言模型;OpenAI不停地尝试又抛弃各种概念;谷歌则应有尽有。他不知哪个终局最好。但现实的回答已经清晰——目前GPT、xAI和中国的开源模型,都在学习Anthropic,加重编码、智能体与企业服务的分量。Codex与Claude Code之间的竞争,已成为当下AI竞赛最核心的战场。

在Sora下架前,OpenAI已推出Codex应用,并预训练好了下一个模型Spud,将于数周内发布。OpenAI的领导层分工也做了调整:Fidji Simo的头衔,已从负责应用的CEO,调整为负责AGI部署的CEO。对齐与安全团队将不再向奥特曼汇报。这一切似乎意味着,OpenAI认为它已在技术上实现了AGI,其标志将是Spud模型——即在认知领域创造经济价值已达到人类水平。其下一个目标,将是在物理世界实现AI。因为Sora而一举成名的Bill Peebles,也将带领他的团队,转向机器人项目。
当下的核心挑战,已从智能体能做什么,转变为人们如何以更大规模指挥、监督它们并与其协作。英伟达的Rubin CPX、Groq 3推理芯片系统,重要部分原本是为了视频生成而设计,OpenAI砍掉视频项目,可能也会影响其未来算力基础设施的规模预期。
重新认识LLM与AGI路径
Sora的下架与编码智能体的崛起,共同指向了一个更清晰的理论图景:
杨立昆正确的部分是——纯自回归文本预测无法通向物理世界的通用智能,Sora的失败也是多模态暴力扩展路径的一次市场检验。
Anthropic押注正确的部分是——LLM不应被视为封闭系统,而应视为认知基底(cognitive substrate)。当它被嵌入工具使用、记忆管理、多智能体协作、代码执行的基础设施中,语言模型的涌现能力会突破杨立昆所指的那些天花板。不是因为改变了架构,而是因为改变了信息流的结构。
这背后有一个激进的技术哲学主张:代码,作为人类认知最形式化、最可验证的表达形式,是LLM突破感知边界的桥头堡。一个能自主编写、测试、调试、优化工具的AI,实际上正在以某种方式理解因果关系——哪怕这种理解发生在符号空间而非物理空间。在AGI导向的圈子里,有一个长期假设正在被印证:拥有最好的编码模型将让你最快抵达AGI——前提是接受实现AI想法的能力是进步瓶颈这一判断。
AI视频颠覆好莱坞的喧嚣,可以暂时休矣。Hugging Face创始人克莱门特认为,这么抛弃掉太可惜,还不如开源出去,也是对AI视频社区的贡献。许多人则认为Sora的谢幕是一件好事——它耗费了巨大资源,却主要做出了一个深度造假的利器,带来的社会影响总体是负面大于正面的。
这也给所有AI科技公司留下了一个根本性的追问:是不是用AI所做的一切,只要是惊艳的、SOTA的,就一定是有价值的、有益处的?
