本文来自微信公众号: 硅基观察Pro ,作者:硅基君
前两天,大摩发了一份挺有意思的报告,标题也很直接:《中国AI GPU——缩小与美国的差距》。
报告里有一个核心判断,其实挺颠覆很多人的直觉:中国AI芯片和美国的差距,并没有市场想象得那么大。
更关键的是,大摩还提出了一个时间判断——2026年,可能会成为中国AI GPU产业的一个重要拐点。
为什么这么说?
原因不只是技术在进步,更重要的是,国内新一轮AI GPU公司正在走向资本市场。比如百度旗下的昆仑芯、阿里体系里的平头哥,都将在未来一两年进入IPO阶段。
在这份报告里,大摩系统拆解了中国AI GPU产业,并试图回答三个核心问题:
第一,中国是否能够大规模供应具有竞争力的AI GPU?
第二,中国AI GPU市场到底有多大?
第三,投资人应该如何评估中国AI GPU公司的商业价值?
接下来,我们就沿着这三个问题,一起看看大摩是怎么说的。
/01/
差距没有想象那么大
很多投资人在讨论中国AI GPU时,往往只盯着晶圆工艺节点,然后很快得出一个结论:中国AI芯片在制程上落后一代甚至几代,因此竞争力有限。
但大摩提出了一个相对不同的判断:中国AI芯片与美国的差距,其实没有市场想象得那么大。
原因很简单。中国的电力成本相对更低,因此能效在整体算力经济模型中的权重,并不像欧美那样高。
如果从“每美元每瓦性能”(performance per watt per dollar)的框架来看,这种差距会明显缩小。
要判断中国AI GPU是否能够真正实现规模化供应,关键还是要回到半导体产业链的供给侧——尤其是晶圆厂产能。
在这一层面,产能扩张不仅取决于晶圆厂的名义产能,还取决于一系列关键上游投入的成熟度和可获得性。而现实情况是,中国AI GPU产业链仍然受到多重供应瓶颈的制约。
这些瓶颈最明显地体现在晶圆前端设备(WFE)上。
在部分设备领域,中国已经取得一定进展。例如外延设备和刻蚀设备等关键工具,已经可以由本土厂商提供,包括北方华创、中微公司以及SiCarrier等。
但在光刻设备和检测设备方面,制约仍然非常明显。
目前,中国晶圆厂仍大量依赖ASML的DUV光刻系统。同时,行业调研显示,在SMIC的先进制程产线(尤其是南方厂区),KLA的检测与计量设备供应受限,这迫使晶圆厂减少检测步骤,将资源集中在最关键的层级。
这种做法可以提高设备利用率、维持产能,但往往以牺牲良率为代价,也加剧了先进制程制造的结构性挑战。
除了设备,EDA(电子设计自动化)软件同样是关键瓶颈。
目前,中国最大的EDA公司华大九天在全球市场的份额仅约1–2%。更重要的是,其尚未提供完整的数字芯片设计工具链,很难支持先进节点GPU的复杂设计。
相比之下,Cadence、Synopsys和Siemens三家公司在全球EDA市场的份额合计超过80%。
与此同时,美国政府已经对先进EDA工具实施严格出口管制,尤其是用于GAA(全环绕栅极)晶体管架构的设计工具。这些限制的目标很明确:
阻止中国推进3nm和2nm节点,而这些节点正是未来高性能计算和AI芯片的关键基础。
在设备与软件双重限制下,中国GPU设计公司在短期内很难向3nm或2nm制程迁移。
在这种背景下,中国AI芯片产业正在出现一个明显变化:
瓶颈正在从设备获取,转移到晶圆代工产能本身。
目前,中国先进逻辑制造能力高度集中在SMIC,这使得SMIC成为国内AI GPU产能扩张的关键节点。
根据行业调研,多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆,利用SMIC的N+1(约12nm)和N+2(约7nm)工艺节点来提升本土产能。
目前,SMIC已经通过DUV多重图案化技术将工艺推进至N+2,并尝试向N+3(约5nm)节点演进。
大摩预计,SMIC的N+2产能将在2025年达到约2.2万片/月,2026年约4万片/月,2027年约5.1万片/月。
不过,这些产能并不会全部用于AI GPU,因为智能手机、汽车SoC等行业同样需要先进节点。
在晶圆工艺难以快速追赶的情况下,中国AI芯片厂商正在逐渐改变竞争路径——从单芯片性能转向系统级架构设计。
目前主流的应对策略大致有三类。
第一,是多芯片集成。
如果单个芯片性能不足,就通过先进封装技术,将多个计算芯片整合在一起,形成更大的计算单元。这种方式不依赖更先进的制程节点,也能够在一定程度上提升整体算力。
第二,是扩大系统规模。
国内厂商正在借鉴NVIDIA NVL72的架构理念,通过更大的机架和集群来提升整体性能。例如华为的CloudMatrix 384、阿里巴巴的PPU架构,以及字节跳动的256加速器机架设计,本质上都是通过规模化架构来弥补单芯片性能差距。
第三,是扩大制造规模。
近年来,中国晶圆代工厂持续加大资本投入。SMIC的资本开支在2023年约75亿美元,2024年约73亿美元,2025年约81亿美元。同时,中国也在加速采购ASML的DUV光刻机,以支撑未来先进节点产能扩张。
换句话说,在单芯片性能难以迅速追赶的情况下,中国厂商正在通过封装、架构和规模三条路径来弥补差距。
虽然单芯片性能仍然落后,但在大规模集群和推理场景中,这种系统级优化,已经能够在一定程度上抵消硬件层面的劣势。
/02/
国产AI GPU的需求有多大?
在讨论中国AI GPU产业时,一个经常被忽视的问题是:需求到底有多大?
在大摩看来,需求侧核心取决于两个驱动力:技术自主化与商业回报。
先看技术自主化。随着外部限制不断加强,AI芯片已经被中国视为关乎国家安全与经济安全的关键资源。这种压力直接推动了中国建设本土AI芯片体系的决心。
在这一过程中,产业链内部形成了一种典型的共生关系。
一方面,本土AI芯片公司需要先进制程节点支持。GPU要具备竞争力,通常需要领先两到三代的制程工艺。另一方面,本土晶圆厂也需要稳定的大客户与订单规模,才能证明先进制程投资的合理性。
在这种结构下,晶圆厂产能成为整个产业链最关键的瓶颈。
不过,大摩认为,自主可控更多是早期投资的驱动力。长期来看,AI芯片产业能否持续发展,最终仍要看商业回报。
随着算力投资规模不断扩大,资本开支与设备利用率迟早会成为约束条件。因此,中国AI产业的路径正在发生变化:
从“政策驱动”,逐渐转向成本效率与商业回报驱动。
目前,中国主要科技公司——腾讯、阿里巴巴、字节跳动、百度、美团和快手——都在明显提高AI资本开支。
大摩预计,到2026年,中国科技公司的AI相关资本开支将达到5970亿元人民币,同比增长约38%。
这些投入主要集中在广告推荐、消费应用(2C)和企业服务(2B)等场景,而这些场景已经逐渐证明具备清晰的商业化路径。
从长期经济模型来看,在扣除折旧、电力和服务器租赁成本之后,中国AI算力基础设施预计将在2028年前后实现盈亏平衡,到2030年整体利润率有望达到约50%。
从需求结构看,中国AI GPU的采购高度集中在少数大型买家。
大摩将其分为三类。
第一类是云服务商(CSP),包括字节跳动、阿里巴巴和腾讯。这些公司采购GPU既用于训练自有模型,也用于向外部客户提供AI云服务。
第二类是主权买家,包括电信运营商、地方政府和国有企业。这类需求主要来自数据主权、数字基础设施和公共服务数字化。
第三类是创新企业,例如DeepSeek、MiniMax等AI创业公司,以及小鹏、小米等汽车厂商。不过目前来看,这类企业的采购规模仍明显小于前两类。
综合这些需求,大摩预计中国AI GPU市场规模将持续快速增长。
到2030年,中国AI GPU市场规模(TAM)预计将达到670亿美元,2024年至2030年的复合增长率约为23%。
这一测算主要基于中国云计算行业的资本开支结构。
大摩预计,到2030年,中国云计算行业整体资本开支将达到1300亿美元,其中约51%将用于AI GPU相关设备。
这一预测基于几个关键假设:
第一,中国云厂商海外数据中心投资比例将逐渐下降。2025年,中国云厂商约40%的算力投资用于海外数据中心,但这一比例预计将在2026年以后下降至约30%。
第二,服务器仍将占云计算资本开支的约90%。
第三,AI加速服务器占比将从2025年的75%提升至2030年的85%。
第四,在AI服务器中,加速器芯片的价值占比约为80%。
不过,随着中国AI GPU市场规模不断扩大,一个更关键的问题也随之出现:这些需求最终会流向谁?
大摩的判断是,在持续的地缘政治压力下,中国AI算力需求正在快速本土化。
这意味着,本土芯片将不再只是出口管制下的替代方案,而会逐渐成为中国AI算力体系的结构性组成部分。
尽管中国在制程技术上仍落后美国数代,但系统级性能差距正在逐渐缩小。
未来四年,这一差距有望从目前的1.5—2倍,缩小至约1倍左右。
推动这一变化的,并不是制程节点本身,而是三个因素:
先进封装技术(例如2.5D和3D封装)、大规模系统架构(例如光互连网络)、软硬件协同优化。
与此同时,中国也在逐步降低对TSMC代工的依赖,更多转向SMIC的N+2和N+3工艺。
当然,一些关键环节仍然依赖海外供应,例如韩国的HBM存储、欧洲的DUV光刻设备,以及美国KLA的检测设备。
不过,大摩的行业调研显示,在部分环节,中国已经开始逐渐取得突破。
综合供需两侧变化,大摩认为中国AI芯片产业正在形成一条清晰的自给路径。
到2030年,中国AI芯片自给率预计将从2024年的33%提升至约76%。与此同时,本土AI芯片市场规模也将从2024年的60亿美元增长至2030年的510亿美元,复合增长率约为42%。
这一增长主要来自三个因素:先进节点产能扩张、制造良率持续提升和以及政策主导的资源配置。
例如,大摩预计中国先进节点晶圆厂的生产良率将从2025年的约20%,提升至2030年的约50%。
同时,由于先进节点产能仍然稀缺,政府在一定程度上会参与产能分配。
在大摩的判断中,华为预计将获得最大的先进节点产能份额,其次是寒武纪和海光,而第二梯队AI芯片公司的产能份额可能各自低于10%。
/03/
谁能胜出?
市场的主流看法是,中国AI GPU的落地,主要还是靠政策推动下的国产替代。
在这种叙事框架里,很多厂商的估值逻辑其实很简单:
第一,未来能从NVIDIA手里拿走多少市场份额;
第二,中国市场会不会长期维持一个分散竞争的格局。
但大摩的判断并不完全一样。
他们认为,中国AI GPU厂商的长期价值,最终还是要回到两个问题:
第一,产品有没有真正的商业竞争力;
第二,这种竞争力能不能转化为稳定收入和品牌溢价。
政府支持、CSP定制采购当然重要,但如果拉长周期看,真正决定市场地位的,还是产品本身。
基于这个逻辑,大摩提出了一套“定性+定量”的评估框架。
定性层面看四件事:能不能拿到先进制程产能、和核心CSP客户关系是否稳固、政策支持力度,以及技术路线是否符合未来需求。
定量层面,则重点看四个指标:TPS(每秒token输出能力)、每瓦性能、每美元每瓦性能,以及最关键的每token成本。
从行业趋势看,中国AI GPU市场大概率会逐步走向整合。
原因其实很简单。一方面,随着技术成熟,产品差异化会逐渐缩小;另一方面,规模效应会越来越重要。
到了后期,竞争不再只是拼参数,而是拼出货量、客户黏性、供应链能力以及成本控制。
换句话说,GPU最终会变成一个典型的规模行业。这也意味着一个结果:
利润率压力会越来越大。
因此,大摩认为接下来最值得关注的三个指标是:
第一,新一代芯片规格是否持续提升;
第二,向头部CSP的出货量能否快速增长;
第三,ASP和毛利率的变化趋势。
如果这些指标走弱,当前市场给出的高估值很可能会面临修正。
当然,这套判断也有可能失效。
例如,如果国产GPU厂商始终拿不到足够的晶圆厂产能,那么产品再好也很难兑现收入。
或者CSP对国产芯片的采用意愿低于预期,采购仍然倾向海外供应商。
更深层的风险,则是AI计算范式本身发生变化。比如模型架构或工作负载发生重大变化,导致当前基于TPS的性能比较不再有效。
从这个角度看,一个真正可能成为长期赢家的中国AI GPU厂商,至少需要同时具备四个条件:
第一,推理经济性有竞争力;
第二,能够稳定拿到先进节点产能;
第三,与核心CSP客户形成深度绑定;
第四,在政策方向上处于有利位置。
缺任何一项,都很难长期维持市场份额,更难支撑高利润率。
在具体分析方法上,大摩采用的是一个“双层框架”。
第一层看定量指标,也就是推理经济学。
对于CSP来说,决定是否大规模部署的,往往不是峰值性能,而是规模化后的总拥有成本。
真正关键的指标,不是芯片跑分有多高,而是推理场景下的每token成本、TPS、每瓦性能,以及每美元算力。
第二层看定性定位。
也就是厂商是否能把实验室里的性能,真正转化为商业市场的份额。这取决于三件事:是否能拿到先进节点产能、是否进入主流CSP采购体系,以及是否契合政策方向。
从需求结构看,中国AI GPU的主战场,短期内更可能是推理,而不是训练。
原因很现实。本土厂商在生态和制程上仍然受限制,要全面参与最前沿基础模型训练仍然有难度。
相比之下,推理需求正在快速增长。
像DeepSeek、豆包、Qwen这样的模型,日均token消耗已经达到很高水平,持续拉动推理算力需求。
与此同时,大量NVIDIA A100以及部分H100、H800集群仍然主要用于训练任务。
这意味着,中国新增的推理需求,很可能越来越多由国产加速器承接。
在推理场景的性能比较中,大摩更看重TPS,也就是每秒token输出能力。
因为在真实部署中,TPS往往比理论峰值算力更接近商业价值。
它同时反映了计算吞吐量、内存带宽、互连能力以及软件栈优化水平。
从推理经济学来看,国产芯片的优势主要在成本结构。
整体来看,本土AI加速器的采购价格通常比中国市场可获得的高端NVIDIA产品低30%到60%。
如果再把功耗、电费以及运维成本算进去,国产方案的总拥有成本通常更低。
这意味着,虽然NVIDIA H200在绝对性能上仍然领先,但在“每token成本”这个更贴近商业现实的指标上,头部国产厂商已经可以做到接近H20和A100。
在部分配置下,甚至可能更优。
这一点非常关键。
因为对于CSP来说,真正决定是否部署的,不是芯片峰值性能,而是能不能用更低成本完成更多推理任务。
换句话说,国产GPU未必要在硅性能上全面领先,只要在规模化部署中具备更好的经济性,就足以建立商业价值。
从TPS表现来看,最新一代国产加速器已经开始逼近甚至在某些场景下超过NVIDIA H20。
例如华为Ascend 950系列以及寒武纪MLU690,在部分推理场景中的表现已经具备一定竞争力。
当然,这种比较也有边界。
TPS不仅受硬件参数影响,还与软件优化、框架适配以及集群配置有关。
换句话说,参数接近并不等于实际部署效果完全相同。
更重要的是,这种比较必须放在中国可采购产品的范围内理解。
如果把NVIDIA最新的GB300平台纳入比较,性能差距会再次被拉开。
也就是说,中国厂商确实在追赶,但当前追赶的主要是中国可获得市场,而不是全球技术前沿。
除了性能,能效也是重要指标。
虽然中国整体能源约束不如美国严格,但能效仍然会影响部署密度和机房成本。
从每瓦性能来看,头部国产芯片已经接近A100和H20,但与H100、H200仍存在差距。
不过,如果把采购价格纳入考虑,国产芯片的性价比优势会更加明显。
因此,在推理密集型场景中,国产GPU的吸引力正在不断增强。
市场最终奖励的,很可能不是峰值性能最高的厂商,而是那些能够持续压低每token成本、并把这种优势规模化复制的公司。
从更宏观的角度看,美国AI GPU公司的估值逻辑已经比较成熟。
像NVIDIA和AMD,估值虽然不低,但核心支撑来自规模、盈利能力以及全球生态位。
相比之下,中国AI GPU厂商的估值明显更激进。
很多公司收入规模仍然较小,盈利能力也还处于早期阶段,但市场已经给出了很高的PS倍数。
本质上,市场交易的不是当前利润,而是国产替代和未来市场集中度的预期。
因此,中国AI GPU板块更像是在定价一张长期竞争格局,而不是确定性的盈利能力。
