2026-02-08 14:12

关于中美AI竞争的差距，我可能真的说错了

本文来自微信公众号： MacTalk ，作者：池建强

周五因为有 AI 新品发布的原因，我写了一篇中美 AI 竞争格局的短文，分别发了公众号和 X，收到了大量的反馈，一两百条。看了这些评论，我感觉自己的理解确实是不全面的。事实上我们根本没法从一个维度去定义这件事。

比如我和一些做基模的专业同学沟通，他们的判断——编程模型差 5%-10%，整体上可能是 3 - 6 个月的差距——这些就是基于他们自己的专业判断，有基线有标准，甚至放到国际评测榜单上，也是类似的结论。这是个专业判断。甚至在 OCR 开源模型这个领域，PaddleOCR-VL-1.5 就是做到了 SOTA。

但涉及到个人，感受就千差万别了。有用户说，中国差在了硬件上，有的说算力不够，模型也不可能好到哪儿去。有的普通用户日常让 AI 助手解决生活里的一些问题，中文的豆包、千问、DeepSeek 等模型，就是比 ChatGPT 和 Gemini 回答的好啊。

即便是同一个领域——比如编程——体感也不一样。

有的用户用来做补全和完成一些简单的模版任务，MiniMax M2.1 就是很好啊，干得漂亮还便宜。有的用户呢，开多个 Agent 做多任务并行，完成复杂的编程实践，这时候 Claude 的优势就发挥出来了，所以他们会认为 CC 比国内模型强大很多。

现在看起来，这是个很难定义的衡量标准。就目前的大趋势来说，基模能力整体上中国落后美国，这是没问题的。落后几个月，不好说，但不会超过一年，甚至中国有些领域是领先的，比如开源模型。2026 如果中国解决了一部分算力问题，我预测这个差距会进一步缩小，因为 Scaling Law 的效果已经越来越不明显了，预训练和强化训练也开始呈现疲态，AI 厂商已经开始追逐第三范式 Online Learning 了。这对追赶者来说，是好事。

还有一点无法忽视，目前的模型越来越强，99% 的用户根本没办法压榨大模型的能力极限。也就是说，模型能力花了 100 倍的功夫，增加了 5% 的能力，大部分用户都感知不到。

比如周五发布的 Opus 4.6 确实很强，但是有多强？目前我试了几个项目，感觉前一代也能解决啊。想榨干模型的能力，几乎是不可能的。甚至想找一些前一代模型搞不定、但新模型却能轻松搞定的案例都很难了。

目前关于新模型（Opus 4.6）能力最有说服力的故事，是 Anthropic 的 Nicholas Carlini 谈 Opus 4.6 的那篇：用一支并行协作的 Claude 团队来构建一个 C 编译器——这可以看作是 Anthropic 团队在自动化软件开发方向的一次系统性实践：Building a C compiler with a team of parallel Claudes（https://www.anthropic.com/engineering/building-c-compiler）。

这是一次用多实例 Claude 自动协作、从零构建可编译 Linux 内核的 C 编译器的实验，我觉得 99% 的工程师别说完成实验了，设计实验都困难。

这个事有多复杂呢？构建一个 agent teams，让多个 Claude 实例在几乎没有人类干预下，在同一个代码仓库长期并行地协作开发。作者用 16 个 Claude，在将近 2000 次 Claude Code 会话和约 2 万美元 API 花费下，从零写出了一个基于 Rust 的 C 编译器，可以在 x86、ARM、RISC‑V 上编译 Linux 6.9，还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis，并在大多数编译器测试套件上达到 99% 通过率。

首先，用一个“无限循环”脚本让单个 Claude 永不停机地反复拉起自己，每次读同一套 agent prompt，持续拆解任务、写代码、再选下一步要做什么。然后扩展成并行架构：多个 Docker 容器各自克隆同一上游仓库，用简单的“写锁文件 + git 同步”避免多个 agent 抢同一任务，通过频繁 pull/merge 解决冲突，没有额外的调度/编排 agent，每个 Claude 自主决定下一步要做啥。随着项目扩展，作者逐渐引入了更完备的测试与 CI，让 Claude 依靠高质量测试和日志来自我定位问题。

我的理解也就能到这里了。

这个实验充分展示了 Opus 4.6 能力。之前的版本勉强能做出能跑小 demo 的编译器，但不能编译大型项目；Opus 4.6 在这个 scaffold 下第一次跨过了“能编译真实世界大型项目”的门槛。

不过编译器依然有硬伤：缺少 16 位 x86 代码生成器，只能在引导阶段依赖 GCC；汇编器和链接器还不稳定；对某些项目仍编译失败；生成的代码性能显著差于 GCC 即便后者不开优化；Rust 代码质量远逊于顶级人类工程师，而且一旦尝试继续修 bug 或加特性，很容易破坏已有功能。

这是下一代 Opus 要解决的问题。

事实上每一代模型都在拓展与开发者协作的方式：从 IDE 补全，到根据注释写函数，再到 Claude Code 这种结对编程型 agent，如今 agent teams 展示了“全自动完成复杂项目”的可能。

这让人们看到了规模性使用 Agent 的可能性，但目前这种可能性也只有顶级的 AI 工程师能够触碰，大部分工程师都在做智能代码补全，根据注释模板生成代码，处理文件，做单一 Agent 任务等等。所以体感也是完全不同的。

那么类似 LMArena 的评测榜单有没有价值呢？肯定有啊，比如最近中国模型在编程领域的成绩就很不错。前五名是美国模型，后五是中国模型。有人说，那不是可以刷榜吗，针对性训练等等。这个其实越来越难了，因为 LMArena 也在进化，不仅仅有机器评测，有升级的训练场，有案例测试，还有人工投票，等等。

你看文本大模型的能力，目前前十就剩下一家中国模型，还是百度的 ERNIE-5.0，其他家怎么不刷上去呢？

另外中美的商业模式也不一样，美国 AI 公司对 C 端卖订阅费用，对 B 端卖 API 赚钱，非常明确和简单，现在 OpenAI 已经开始探索第三种方式——广告业务了。

国内呢，就复杂得多，豆包是国内最大用户量的 AI 产品吧，普惠，一分钱不收。千问和元宝为了追赶豆包，还得补贴用户红包和奶茶，抢占市场。类似火山引擎和百度 AI 云这样的toB 服务，倒是一样的，企业想用 AI，还是买 API 和服务比较稳妥。

另外，为什么国外顶级模型都是闭源的，中国都是开源的？

ChatGPT、Gemini、Claude 等在模型研发上投入了数十亿美元，通过闭源（API 授权制），它们可以建立极高的商业壁垒，确保每一笔算力投入都能通过订阅费或 API 调用费获得回报。

国内 AI 公司本来就是后发，需要通过开源来快速吸引开发者，降低全球用户的试用门槛，从而在短时间内建立起足以抗衡美国的开发者生态。另外，面对算力和芯片限制，中国企业也倾向于分布式创新。开源能汇聚全球开发者的反馈，在算法优化和推理效率上寻找突破。第三，开源对中小企业也更友好，中国厂商通过提供“好用且免费/低价”的开源权重，能迅速渗透到制造业、政务等垂直细分市场，以普及率换取未来的商业地位。

这里面还涉及地缘政治的问题，咱就不细讲了。总之中国的环境其实要复杂的多，美国就更直接、简单。未来两边肯定是螺旋式交织上升，具体 AI 能发展到什么程度，如何改变世界的格局和商业模式，改变人们的生活……

我想，五年之内见分晓吧。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP