本文来自微信公众号:傅里叶的猫,作者:张海军,题图来自:AI生成
本文来自微信公众号:傅里叶的猫,作者:张海军,题图来自:AI生成
最近DeepSeek火得一塌糊涂,虽然战绩确实很强,但国内一贯的造神风格,总会夸大很多事,比如DeepSeek的成本:550万美元,打败了美国几亿美元。
其实网上的这些说法,DeepSeek从来没有说过,他们只在论文中提到了自己的训练成本是5.576M USD,也就是557.6万美元。这当然不是总成本,而且还差别非常大。
GPU配置
DeepSeek的论文提到,DeepSeek-V3使用了2048块H800 GPU进行训练。
而Meta在其论文中提到使用了超过16000块GPU的集群。DeepSeek的这一配置可能是其最有效的预训练集群,但受限于芯片禁运的政策,DeepSeek的H100 GPU数量显然是不如Meta的,而H800的性能是不如H100的:
网络带宽
H100:配备了 HBM3 高带宽内存,使用 NVLink Switch System 可实现最高 900GB/s 的互联带宽,高速的数据传输能力使得它在处理大规模数据时,能够更高效地在不同组件之间交换信息,大大提升了数据的流通速度和处理效率,从而提高整体吞吐量。
H800:为了符合相关规定,对网络通信能力进行了限制,其 NVLink 带宽最高为 400GB/s。这意味着在数据传输的速度上,H800 相较于 H100 有明显差距,在需要频繁进行大规模数据交互的场景中,较低的带宽会成为数据传输的瓶颈,限制了系统整体的吞吐量。
显存带宽
H100:拥有更高的显存带宽,能够更快地在显存和处理器核心之间传输数据。这使得它在处理复杂的深度学习模型和大规模数据集时,可以更迅速地获取所需数据,减少等待时间,提高计算效率,进而提升吞吐量。
H800:显存带宽方面相对 H100 有所降低,在数据读取和写入的速度上不如 H100,在一些对显存带宽要求极高的应用场景中,可能会因为数据传输的延迟而影响整体的处理速度和吞吐量。
算力
H100:基于 Hopper 架构,拥有强大的计算核心,其 FP8 算力可达 1 exaFLOPS,能够快速处理大量的计算任务。在进行大规模的矩阵运算、深度学习训练等工作时,H100 可以在更短的时间内完成计算,处理更多的数据,从而实现更高的吞吐量。
H800:算力上相比 H100 也有所阉割,在相同的任务负载下,完成计算所需的时间会更长,单位时间内能够处理的数据量相对较少。
由于幻方(DeepSeek)没有对外公布过GPU的数量,很多GPU是禁运的,肯定也不能公布,所以外界都是根据其他数据进行估计,像SemiAnalysis的评估数据如下:
也有其他可信度较高的报告称,DeepSeek拥有的GPU数量约为2万至5万个(以A100为基准)。无论如何,虽远低于Meta的规模,但仍属于全球范围内计算资源最丰富的机构之一。
大模型训练的风险
由于GPU的资源是非常宝贵的,因此长时间占用公司中最宝贵的GPU资产来训练一个模型存在极高风险。例如,SemiAnalysis指出,OpenAI的Orion项目因需要大量计算资源而耗时超过3个月完成训练,这种情况是OpenAI明确希望避免的。相比之下,快速迭代小型模型(如o3)更具灵活性。
实验与预训练成本
模型开发过程中用于实验的总计算量远高于最终报告的数字,语言模型实验室通常会通过scaling laws降低预训练风险,这意味着在大规模训练之前会进行数千次小规模实验(如10亿至70亿参数量),以验证模型的有效性。
据推测,DeepSeek-V3的预训练实验总计算量可能是论文中报告数字的2~4倍。此外,DeepSeek还可能使用了其他项目(如DeepSeek R1 Lite)作为合成数据的来源,进一步增加了计算开销。
计算成本与所有权
计算资源的成本估算需要考虑多个因素:
1. GPU的所有权与租赁
DeepSeek是否拥有或租用了这些GPU尚不清楚。假设DeepSeek拥有这些GPU,则其总拥有成本(TCO)将包括硬件采购、电力消耗和其他运营成本。
对于1万块以上的A/H100 GPU集群,电费每年可能超过1000万美元。
单块H100的市场价约为3万美元,因此1万块H100的资本支出(CapEx)可能超过10亿美元。
2. 云服务合作的可能性
这些成本并不一定全部由DeepSeek承担,因为它们可能与云服务提供商合作。即使如此,仅计算资源的成本(不包括电力等其他费用)每年也可能达到数亿美元。
除了硬件成本,DeepSeek-V3的成功还离不开庞大的技术团队:
技术团队规模:DeepSeek-V3论文中有139名技术作者,当然这里面有他们的员工,有应届毕业生,也有在校的实习生,这表明DeepSeek拥有一个非常庞大的技术团队。人员成本就是一笔不小的开销,幻方的薪资绝对不比互联网大厂低,因此每年可能超过1000万美元的人工成本。
全年运营成本:结合硬件、电力和人员成本,DeepSeek AI一年的运营成本肯定不会低于5亿美元,SemiAnalysis给出的估算是13亿美元。这一数字远高于论文中的550万美元估算。
与其他公司的对比
尽管DeepSeek-V3的成本估算远高于其他开源模型,但从行业角度来看,这一投入仍处于合理范围内:Meta和OpenAI等美国科技公司在AI模型开发上的年均投入已接近或超过100亿美元。相比之下,DeepSeek-V3的成本显得更为经济高效。
本文来自微信公众号:傅里叶的猫,作者:张海军