本文来自微信公众号:傅里叶的猫,作者:张海军,题图来自:AI生成
本文来自微信公众号:傅里叶的猫,作者:张海军,题图来自:AI生成
这是SemiAnalysis新出的一篇分析报告,对于最近DeepSeek这次事件的分析,包括中国在成本、真实训练成本、封闭模型利润率影响方面的领先地位 ——H100 价格飙升、补贴推理定价、出口管制、多头潜在注意力机制。
春节这几天一直对DeepSeek非常关注,也看到了很多数据。在另一份可信度比较高的报告中,也看到过关于DeepSeek不可能有5万张H100的说法,这篇报告也给出了类似的结论,看来这个说法应该是靠谱的。至于该报告后面中国政府的补贴政策,以及DeepSeek是否拿到了这些补贴,我们还没看到官方的公布。
深度求索的故事席卷全球
深度求索(DeepSeek)的故事在全球引起了轰动。在过去的一周里,深度求索成了全球各界唯一的热议话题。目前,深度求索的日访问量远超 Claude、Perplexity,甚至超过了 Gemini。
但对于密切关注这一领域的人来说,这其实并非什么 “新鲜事”,令人瞩目的是人们对它的疯狂炒作。长期以来,SemiAnalysis 一直认为深度求索极具天赋,但美国大众此前并不关注。当全世界终于开始关注时,却陷入了一种脱离现实的疯狂炒作。几个月来,我们一直在谈论深度求索(每个链接都是例证)。这家公司并不新。
我们想强调的是,舆论风向与上个月相比发生了逆转。上个月,当规模定律被打破时,有人认为这对英伟达(Nvidia)和 GPU 不利;如今,又有人说算法改进速度过快。我们已经破除了这些谬论。
如今的舆论认为,深度求索效率极高,我们不再需要更多计算资源,而且由于模型的变化,现在一切都存在大量过剩产能。虽然杰文斯悖论(Jevons paradox)也被过度炒作了,但它更接近现实情况。这些模型已经对 H100 和 H200 的定价产生了实际影响,刺激了需求。
深度求索与 High-Flyer(幻方)
High-Flyer 是一家中国对冲基金,也是将人工智能应用于交易算法的早期 adopters。他们很早就意识到了人工智能在金融领域之外的潜力,以及规模化的关键意义。因此,他们不断增加 GPU 的储备。在使用数千个 GPU 集群对模型进行试验后,High-Flyer 在 2021 年出口限制实施前投资购买了 10000 个 A100 GPU,这一举措取得了回报。
随着 High-Flyer 的发展,他们在 2023 年 5 月决定分拆出 “深度求索”,目标是更专注地追求人工智能能力的进一步提升。当时,由于缺乏商业模式,外部投资者对人工智能兴趣寥寥,High-Flyer 便自行出资成立了这家公司。如今,High-Flyer 和深度求索经常共享人力和计算资源。
深度求索如今已发展成为一项认真且协同的事业,绝非许多媒体声称的 “副业”。我们确信,即便考虑到出口管制因素,他们在 GPU 上的投资也超过 5 亿美元。
GPU情况
我们认为他们拥有约 50000 个 Hopper GPU,但这并不等同于 50000 个 H100,一些人存在这样的误解。英伟达为遵守不同规定,生产了 H100 的多种变体(H800、H20),目前中国的模型供应商仅能获得 H20。需要注意的是,H800 的计算能力与 H100 相同,但网络带宽较低。
我们认为深度求索拥有约 10000 个 H800 和 10000 个 H100。此外,他们还订购了更多 H20。在过去 9 个月里,英伟达生产了超过 100 万个专供中国的 GPU。这些 GPU 由 High-Flyer 和深度求索共享,并在一定程度上进行了地理分布。它们被用于交易、推理、训练和研究。如需更具体的详细分析,请参考我们的《加速器模型》。
深度求索人工智能的总拥有成本
我们的分析显示,深度求索的服务器总资本支出接近 13 亿美元,运营这些集群的成本高达 7.15 亿美元。同样,所有人工智能实验室和超大规模数据中心为了各种任务(包括研究和训练),拥有的 GPU 数量比单次训练所需的更多,因为资源集中存在一定挑战。X.AI 作为一个人工智能实验室比较独特,它所有的 GPU 都集中在一个地方。
深度求索只从中国招聘人才,不看重过往资历,高度关注能力和求知欲。他们经常在北京大学和浙江大学等顶尖大学举办招聘活动,招聘广告中甚至吹嘘员工能无限制使用数万个 GPU。他们极具竞争力,据说为有潜力的候选人提供超过 130 万美元的年薪,远超中国其他大型科技公司和人工智能实验室,如 Moonshot。他们目前约有 150 名员工,且规模还在迅速扩大。岗位角色不一定预先设定,招聘人员有一定灵活性。
历史表明,资金充足且专注的小型初创公司往往能突破极限。深度求索不像谷歌那样官僚主义,由于是自筹资金,他们能迅速将想法付诸实践。不过,和谷歌一样,深度求索(在很大程度上)运营自己的数据中心,不依赖外部机构或供应商。这为实验开辟了更多空间,使他们能够在整个技术栈上进行创新。
我们认为他们是目前最好的 “开放权重” 实验室,超过了 Meta 的 Llama 项目、Mistral 等。
深度求索的成本与性能
本周,深度求索的价格和效率引发了热潮,主要焦点是深度求索 V3 的“600 万美元”训练成本。但这是错误的。这就好比只看产品物料清单上的某一部分,却将其视为整个产品的成本。预训练成本只是总成本中很小的一部分。
训练成本
我们认为预训练成本远非该模型的实际投入。我们确信,在公司发展历程中,他们在硬件上的花费远高于 5 亿美元。为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和 GPU 计算时间。深度求索的关键创新 —— 多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。
论文中提到的 600 万美元成本仅指预训练运行的 GPU 成本,这只是模型总成本的一部分。研发费用和硬件本身的总拥有成本等重要部分并未计算在内。参考一下,Claude 3.5 Sonnet 的训练成本高达数千万美元,如果这就是 Anthropic 所需的全部成本,他们就不会从谷歌筹集数十亿美元,也不会从亚马逊筹集数百亿美元了。这是因为他们必须进行实验、提出新架构、收集和清理数据、支付员工工资等等。
那么深度求索是如何拥有如此庞大的集群的呢?出口管制的滞后是关键,下面在出口管制部分会详细讨论。
缩小差距——V3的性能
V3 无疑是一款令人印象深刻的模型,但值得注意的是,要明确它是相对于什么而言令人印象深刻。许多人将 V3 与 GPT-4o 进行比较,并强调 V3 如何超越 4o 的性能。这确实没错,但 GPT-4o 于 2024 年 5 月发布。人工智能发展迅速,从算法改进的角度来看,2024 年 5 月恍如隔世。而且,经过一段时间后,用更少的计算资源实现相当或更强的能力,这并不令人意外。推理成本的下降是人工智能进步的一个标志。
深度求索V3的竞争分析
image-20250131202203708
例如,能在笔记本电脑上运行的小型模型,其性能可与 GPT-3 相媲美,而 GPT-3 的训练需要超级计算机,推理则需要多个 GPU。换句话说,算法的改进使得用更少的计算资源来训练和推理具有相同能力的模型成为可能,这种模式反复出现。这次全世界之所以关注,是因为它来自中国的一个实验室。但小型模型性能提升并非新鲜事。
到目前为止,我们从这种模式中看到,人工智能实验室为了获得更高的智能水平,在绝对金额上的投入越来越多。据估计,算法的进步意味着每年实现相同能力所需的计算资源减少 4 倍。Anthropic 的首席执行官 Dario 认为,算法定价在朝着 GPT-3 质量发展,成本已下降 1200 倍。就推理而言,甚至可以实现 10 倍的改进。
在研究 GPT-4 的成本时,我们也看到了类似的成本下降趋势,不过处于曲线的更早期阶段。虽然随着时间推移成本差异的缩小,不能像上面的图表那样通过保持能力不变来解释。在这种情况下,我们看到算法改进和优化使成本降低了 10 倍,同时能力也有所提升。
image-20250131202450449
需要明确的是,深度求索的独特之处在于他们率先达到了这样的成本和能力水平。他们发布开放权重的做法也很独特,不过之前 Mistral 和 Llama 模型也有过类似举措。深度求索达到了这样的成本水平,但到今年年底,如果成本再下降 5 倍,也不要感到惊讶。
另一方面,R1 能够取得与 o1 相当的结果,而 o1 直到 9 月才发布。深度求索是如何这么快就追赶上的呢?
答案是,推理是一种新范式,与之前的预训练范式相比,它的迭代速度更快,且更容易实现较小计算量下的显著提升,而之前的预训练范式成本越来越高,且难以取得稳健的进展。如我们在报告中所述,之前的范式依赖于规模定律。
新范式通过在现有模型的训练后阶段,利用合成数据生成和强化学习来提升推理能力,能够以更低的成本实现更快的进步。较低的进入门槛和易于优化的特点,使得深度求索能够比往常更快地复制 o1 的方法。随着参与者在这种新范式中找到更多扩展方法,我们预计实现相同能力所需的时间差距将会扩大。
需要注意的是,R1 的论文中并未提及所使用的计算资源。这并非偶然——为训练后的 R1 生成合成数据需要大量计算资源,更不用说强化学习了。我们并不否认 R1 是一款非常优秀的模型,能如此迅速地在推理能力上追赶上令人钦佩。深度求索作为一家中国公司,用更少的资源实现了追赶,这更是令人赞叹。
但 R1 提到的一些基准测试也具有误导性。将 R1 与 o1 进行比较很棘手,因为 R1 特别没有提及那些自己不领先的基准测试。虽然 R1 在推理性能上与 o1 相当,但它并非在所有指标上都是明显的赢家,在很多情况下甚至不如 o1。
我们还没有提到 o3。o3 的能力明显高于 R1 和 o1。事实上,OpenAI 最近公布了 o3 的结果,其基准测试成绩直线上升。“深度学习遇到了瓶颈”是另一种情况。
谷歌的推理模型与R1相当
在人们为 R1 疯狂炒作时,一家市值 2.5 万亿美元的美国公司——谷歌,提前一个月发布了一款推理模型 Gemini Flash 2.0 Thinking,且价格更低。这款模型可供使用,通过 API 调用时,即使其上下文长度更长,价格也比 R1 便宜得多。
在已公布的基准测试中,Flash 2.0 Thinking 的表现优于 R1,尽管基准测试并不能说明全部情况。谷歌只公布了 3 个基准测试结果,所以这只是一个不完整的画面。不过,我们认为谷歌的模型很可靠,在很多方面都能与 R1 抗衡,却没有得到任何炒作。这可能是因为谷歌的市场推广策略平淡无奇,用户体验也不佳,但也可能是因为 R1 来自中国,令人感到意外。
image-20250131202412500
需要明确的是,这些都无损于深度求索的卓越成就。深度求索作为一家行动迅速、资金充足、人才济济且专注的初创公司,能够在推理模型发布上击败 Meta 等巨头,值得称赞。
技术成就
深度求索已经找到了关键方法,实现了领先实验室尚未取得的创新。我们预计,深度求索公布的任何改进,几乎都会立即被西方实验室效仿。
这些改进有哪些呢?大多数架构