本文来自微信公众号: MacTalk ,作者:池建强
周五因为有 AI 新品发布的原因,我写了一篇中美 AI 竞争格局的短文,分别发了公众号和 X,收到了大量的反馈,一两百条。看了这些评论,我感觉自己的理解确实是不全面的。事实上我们根本没法从一个维度去定义这件事。
比如我和一些做基模的专业同学沟通,他们的判断——编程模型差 5%-10%,整体上可能是 3 - 6 个月的差距——这些就是基于他们自己的专业判断,有基线有标准,甚至放到国际评测榜单上,也是类似的结论。这是个专业判断。甚至在 OCR 开源模型这个领域,PaddleOCR-VL-1.5 就是做到了 SOTA。
但涉及到个人,感受就千差万别了。有用户说,中国差在了硬件上,有的说算力不够,模型也不可能好到哪儿去。有的普通用户日常让 AI 助手解决生活里的一些问题,中文的豆包、千问、DeepSeek 等模型,就是比 ChatGPT 和 Gemini 回答的好啊。
即便是同一个领域——比如编程——体感也不一样。
有的用户用来做补全和完成一些简单的模版任务,MiniMax M2.1 就是很好啊,干得漂亮还便宜。有的用户呢,开多个 Agent 做多任务并行,完成复杂的编程实践,这时候 Claude 的优势就发挥出来了,所以他们会认为 CC 比国内模型强大很多。
现在看起来,这是个很难定义的衡量标准。就目前的大趋势来说,基模能力整体上中国落后美国,这是没问题的。落后几个月,不好说,但不会超过一年,甚至中国有些领域是领先的,比如开源模型。2026 如果中国解决了一部分算力问题,我预测这个差距会进一步缩小,因为 Scaling Law 的效果已经越来越不明显了,预训练和强化训练也开始呈现疲态,AI 厂商已经开始追逐第三范式 Online Learning 了。这对追赶者来说,是好事。
还有一点无法忽视,目前的模型越来越强,99% 的用户根本没办法压榨大模型的能力极限。也就是说,模型能力花了 100 倍的功夫,增加了 5% 的能力,大部分用户都感知不到。
比如周五发布的 Opus 4.6 确实很强,但是有多强?目前我试了几个项目,感觉前一代也能解决啊。想榨干模型的能力,几乎是不可能的。甚至想找一些前一代模型搞不定、但新模型却能轻松搞定的案例都很难了。
目前关于新模型(Opus 4.6)能力最有说服力的故事,是 Anthropic 的 Nicholas Carlini 谈 Opus 4.6 的那篇:用一支并行协作的 Claude 团队来构建一个 C 编译器——这可以看作是 Anthropic 团队在自动化软件开发方向的一次系统性实践:Building a C compiler with a team of parallel Claudes(https://www.anthropic.com/engineering/building-c-compiler)。
这是一次用多实例 Claude 自动协作、从零构建可编译 Linux 内核的 C 编译器的实验,我觉得 99% 的工程师别说完成实验了,设计实验都困难。
这个事有多复杂呢?构建一个 agent teams,让多个 Claude 实例在几乎没有人类干预下,在同一个代码仓库长期并行地协作开发。作者用 16 个 Claude,在将近 2000 次 Claude Code 会话和约 2 万美元 API 花费下,从零写出了一个基于 Rust 的 C 编译器,可以在 x86、ARM、RISC‑V 上编译 Linux 6.9,还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis,并在大多数编译器测试套件上达到 99% 通过率。
首先,用一个“无限循环”脚本让单个 Claude 永不停机地反复拉起自己,每次读同一套 agent prompt,持续拆解任务、写代码、再选下一步要做什么。然后扩展成并行架构:多个 Docker 容器各自克隆同一上游仓库,用简单的“写锁文件 + git 同步”避免多个 agent 抢同一任务,通过频繁 pull/merge 解决冲突,没有额外的调度/编排 agent,每个 Claude 自主决定下一步要做啥。随着项目扩展,作者逐渐引入了更完备的测试与 CI,让 Claude 依靠高质量测试和日志来自我定位问题。
我的理解也就能到这里了。
这个实验充分展示了 Opus 4.6 能力。之前的版本勉强能做出能跑小 demo 的编译器,但不能编译大型项目;Opus 4.6 在这个 scaffold 下第一次跨过了“能编译真实世界大型项目”的门槛。
不过编译器依然有硬伤:缺少 16 位 x86 代码生成器,只能在引导阶段依赖 GCC;汇编器和链接器还不稳定;对某些项目仍编译失败;生成的代码性能显著差于 GCC 即便后者不开优化;Rust 代码质量远逊于顶级人类工程师,而且一旦尝试继续修 bug 或加特性,很容易破坏已有功能。
这是下一代 Opus 要解决的问题。
事实上每一代模型都在拓展与开发者协作的方式:从 IDE 补全,到根据注释写函数,再到 Claude Code 这种结对编程型 agent,如今 agent teams 展示了“全自动完成复杂项目”的可能。
这让人们看到了规模性使用 Agent 的可能性,但目前这种可能性也只有顶级的 AI 工程师能够触碰,大部分工程师都在做智能代码补全,根据注释模板生成代码,处理文件,做单一 Agent 任务等等。所以体感也是完全不同的。
那么类似 LMArena 的评测榜单有没有价值呢?肯定有啊,比如最近中国模型在编程领域的成绩就很不错。前五名是美国模型,后五是中国模型。有人说,那不是可以刷榜吗,针对性训练等等。这个其实越来越难了,因为 LMArena 也在进化,不仅仅有机器评测,有升级的训练场,有案例测试,还有人工投票,等等。
你看文本大模型的能力,目前前十就剩下一家中国模型,还是百度的 ERNIE-5.0,其他家怎么不刷上去呢?
另外中美的商业模式也不一样,美国 AI 公司对 C 端卖订阅费用,对 B 端卖 API 赚钱,非常明确和简单,现在 OpenAI 已经开始探索第三种方式——广告业务了。
国内呢,就复杂得多,豆包是国内最大用户量的 AI 产品吧,普惠,一分钱不收。千问和元宝为了追赶豆包,还得补贴用户红包和奶茶,抢占市场。类似火山引擎和百度 AI 云这样的toB 服务,倒是一样的,企业想用 AI,还是买 API 和服务比较稳妥。
另外,为什么国外顶级模型都是闭源的,中国都是开源的?
ChatGPT、Gemini、Claude 等在模型研发上投入了数十亿美元,通过闭源(API 授权制),它们可以建立极高的商业壁垒,确保每一笔算力投入都能通过订阅费或 API 调用费获得回报。
国内 AI 公司本来就是后发,需要通过开源来快速吸引开发者,降低全球用户的试用门槛,从而在短时间内建立起足以抗衡美国的开发者生态。另外,面对算力和芯片限制,中国企业也倾向于分布式创新。开源能汇聚全球开发者的反馈,在算法优化和推理效率上寻找突破。第三,开源对中小企业也更友好,中国厂商通过提供“好用且免费/低价”的开源权重,能迅速渗透到制造业、政务等垂直细分市场,以普及率换取未来的商业地位。
这里面还涉及地缘政治的问题,咱就不细讲了。总之中国的环境其实要复杂的多,美国就更直接、简单。未来两边肯定是螺旋式交织上升,具体 AI 能发展到什么程度,如何改变世界的格局和商业模式,改变人们的生活……
我想,五年之内见分晓吧。
