ARM在AI浪潮中推出专为智能体优化的AGI CPU,挑战x86架构并直指英伟达软肋,CPU复兴成为突破AI系统瓶颈的关键,行业竞争格局因智能体技术重塑。 ## 1. CPU复兴:从边缘到核心的转折 - 英伟达承认CPU是AI工厂吞吐token的瓶颈,Arm推出136核3nm工艺的AGI CPU,性能超越英伟达Grace CPU(主频3.7GHz/内存带宽825GB/s)。 - 智能体式AI使CPU需求增长4倍(达1.2亿核/GW),节省100亿美元/GW电费,但核心价值在于避免GPU算力浪费。 ## 2. 智能体技术重构AI硬件生态 - 智能体处理非并行任务(如网页操作)增加,CPU单核性能与IO能力成为关键,传统Cloud-Native CPU设计范式被颠覆。 - 英伟达自研Olympus核心CPU(1.2TB/s带宽)应对竞争,但Meta同时采用Arm AGI CPU与英伟达Vera,暴露战略摇摆。 ## 3. 巨头混战:ARM架构的全面渗透 - 超大规模云厂商(亚马逊Graviton、微软Cobalt、谷歌Axion)均已自研ARM CPU,但尚未适配智能体场景。 - 英伟达曾试图400亿美元收购Arm未果,现通过NVLink Fusion技术绑定自家CPU/GPU,强化生态控制。 ## 4. AGI竞赛中的技术路线之争 - Arm高管称x86是"AGI技术债务",其AGI CPU已规划三代迭代,2024年底量产,直指通用人工智能基础设施。 - 黄仁勋强调系统性能优化需平衡GPU/CPU/网络,阿姆达尔定律推动英伟达收购Mellanox与Groq补全短板。
ARM的AI叙事:AGI路径与CPU复兴
2026-03-26 00:13

ARM的AI叙事:AGI路径与CPU复兴

本文来自微信公众号: 未尽研究 ,作者:未尽研究


在AI叙事中,GPU一度吞噬了一切,但那些曾被边缘化的角色,逐步重新成为瓶颈。正如黄仁勋反复强调的那样,CPU已经成为限制英伟达“AI工厂”吞吐token速度的关键所在。换句话说,它是系统性能的阿姆达尔定律(Amdahl's law)极限所在。


现在,长期坚持身居幕后的Arm公司,终于也决定亲自下场。Arm推出的首款面向外部销售的数据中心CPU,命名为Arm AGI CPU,充分体现了其野心。AGI(通用人工智能)是整个AI行业的长期叙事制高点,智能体是“递归式”通往AGI的重要路径。而Arm AGI CPU正是面向高性能智能体AI系统而设计的。


它性能强劲、易于扩展,而且功耗低。在发布会上,公司高管直斥x86架构CPU是AGI路线的技术债务。



根据官方资料,这款CPU拥有136个Neoverse V3核心,最高主频可达3.7GHz,由两个Chiplet组合而成,采用台积电3纳米工艺。每个核心配备2MB的L2缓存,并共享128MB的系统级缓存(SLC),内存带宽825 GB/s,设计热功率(TDP)为300W。


它已经超过了英伟达目前主打的Grace CPU。后者基于ARM Neoverse V2核心,无论是主频、L2缓存、内存带宽都落后了不少。


Meta与OpenAI,这些原本围绕AI推理芯片构建体系的玩家,如今开始为CPU预留位置;叫板英伟达的芯片初创企业Cerebras,也是它的客户之一。它们现在就可以订购,年底实现量产;明年,就迭代到第二代;AGI CPU 3也已在规划中。


智能体式(Agentic)AI的兴起,为CPU带来了新的价值。ARM首席执行官Rene Haas在发布会上称,随着AI从现有工作负载,演进到智能体式工作模式,数据中心对CPU的需求可能增长四倍,相当于每GW算力的CPU核心数,从当前的3000万个跃升至1.2亿个。相比传统x86架构CPU,AGI CPU能省下高达100亿美元/GW的电费和资本支出。


然而,能省电费也许不是CPU复兴的主要原因,避免GPU价值被浪费才是。随着GPU算力日益强大,其空闲或未充分利用的也越来越不可接受。AI工厂吞吐token的交互速度,如果从每秒400个token向1000个token延伸,那么,每百万token的价格可以从45美元提升至150美元,这不是线性的增长。


在GTC 2026期间,黄仁勋接受专访时称,英伟达专注于加速计算,目标从来不是取代CPU,而是最大化整个系统的性能。那些立错目标的竞争对手已经消失在历史里。在现代AI系统中,系统性能始终受阿姆达尔定律制约,GPU、网络、内存和CPU都会成为潜在瓶颈,英伟达正在一手抓。


过去10年,CPU的设计主要围绕超大规模云计算展开(Cloud-Native CPU),更强调核心数量。在智能体兴起前,AI主要用于生成内容,CPU作为GPU控制节点(Head Node CPU),负责管理GPU并持续为其提供数据,追求更高单核性能。不过,数据调度、任务编排、工具调用和系统交互,甚至操作没有API接口的应用程序,如浏览网页、点击界面元素等,在CPU与GPU的交互中,占比仍然不显著。英伟达的Grace CPU,主要就是GPU控制节点。


但是,随着智能体能力不断提升,它可以完成越来越多复杂任务,也将触及更多无法并行的工作负荷。一旦CPU性能不足,这部分“不可加速”的工作,就会成为整个系统的瓶颈。要求CPU确保数据、任务和工具调用能够高效流动,也就需要更强大的单核性能与IO能力。


既然AGI离不开CPU,那么,黄仁勋要打造最高效的“AI工厂”,自然也希望把CPU的命运,牢牢抓在自己手里。在上周的GTC 2026上,英伟达大力宣传了下一代基于Arm架构的自研CPU,卖点就在于专为智能体式AI打造。


它摆脱了ARM的Neoverse核心,采用深度自研的Olympus核心,号称单核性能最强。该CPU的每核私有L2缓存也提升至2MB,内存带宽更是达到了1.2TB/s。Vera CPU的下一代,将是Rosa CPU,也已经早早宣布。


尽管这次黄仁勋为ARM AGI CPU美言了几句,但事情正在变得微妙。黄仁勋为了解决AI工厂的“阿姆达尔瓶颈”,已经收购了Mellanox与Groq。在2020年,英伟达也曾动过400亿美元收购ARM的念头,但最终在所有人的反对下,于2022年宣告终止推进协议。


智能体正在改变AI叙事的竞争格局。ARM AGI CPU就是CPU复兴最直接的一击。去年,英伟达推出NVLink Fusion功能,允许只要CPU或GPU来自英伟达旗下,就能互联互通,也许就预见到了这一刻。


事实上,英伟达也开始出售自己的CPU。一开始,单独出售的Grace CPU,主要用于超级计算机和其他高性能计算应用。今年2月,英伟达与Meta达成了一项多年协议,其中包括首次大规模部署Grace CPU,而下一代的Vera CPU也在接受Meta的评估。


但是,Meta正是ARM AGI CPU的首位大客户,事实上也是这款芯片的设计合作者。在硅谷巨头中,即使是CPU领域,Meta的自研布局也相对落后。而其他几乎所有的重要玩家,已经都自研了ARM架构的CPU,包括亚马逊AWS的Graviton系列,微软Azure的Cobalt系列,谷歌云的Axion系列等等。


不过,它们在AI算力集群中的作用尚不明显,动作最快的,也主要是处于GPU控制节点的阶段,而非转为智能体式AI优化。


亚马逊是首家推出自研CPU的超大规模云厂商,2018年就发布了Graviton。去年底,在发布的Trainium3芯片后,亚马逊曾透露,基于该芯片的算力集群,将由自己的Graviton5驱动。谷歌两年前发布的Axion芯片,目前覆盖了大约30%的内部应用,未来,谷歌也会设计用于TPU集群的Axion CPU,以支撑Gemini模型。微软基于Maia 200的算力集群仍然由英特尔CPU驱动。


看来,正如推理时代AI芯片走向定制,智能体时代的CPU复兴,谁都想掺和一把。这可关系到AGI的实现呢。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定