全行业跟风苹果推出统一内存架构围攻苹果,但其仅追上苹果过往水平,苹果模型能力才是当前短板,WWDC或将揭晓苹果应对方案。 ## 1. 全行业跟风苹果统一内存架构发起追赶 当前英特尔、AMD、英伟达、高通等全行业都在跟风推出类苹果统一内存架构,追赶时间已经晚了苹果五到六年,目标是驱动端侧AI。目前行业公开方案中,Strix Halo内存带宽为256GB/s,GB10/RTX Spark为273GB/s,骁龙X2 Elite Extreme为228GB/s,仅摸到苹果中高端水位,离苹果M5 Max的614GB/s还差一倍多,追到当前水平已经用了超过两年。英伟达RTX Spark是用2024年的落后元件封装,本质是借统一内存风口包装旧产品。 ## 2. 苹果统一内存架构的核心优势 苹果芯片专为自有设备设计,芯片和系统设计相互针对性优化,不存在功能浪费。苹果统一内存架构可让CPU、GPU、神经网络引擎共享完整内存池,这是其他同类方案暂未实现的;从M5系列开始升级两片式融合架构,会随GPU核心数提升同步翻倍内存位宽与带宽,保证算力和带宽匹配均衡,不会出现带宽瓶颈。 ## 3. 苹果ANE的潜力与开放进展 苹果2017年就随A11推出ANE,社区开发者逆向M4的ANE发现,其跑满算力时每瓦可提供6.6TOPS,还能在功耗低于8W的情况下完整训练1亿参数Transformer模型,是未完全开发的算力金矿,目前超10亿台苹果活跃设备搭载该单元。苹果在WWDC 2025的Metal 4中新增原生tensor类型,允许开发者更精细控制计算单元,对社区逆向开发持开放认可态度,但出于安全考虑仍会谨慎开放权限。 ## 4. 苹果端侧AI体系的短板与潜在应对 苹果已推出免费离线的本地Foundation Models框架,已有数千个应用接入,但当前苹果端侧模型仅约30亿参数,仅能胜任轻量生成任务,应对复杂推理、agent工作流时,能力远落后于当前第一梯队旗舰模型,云端模型也暂未跟上第一梯队。传闻WWDC 2025苹果可能推出新Core AI框架取代Core ML,允许开发者接入第三方模型,还可能引入头部AI企业的蒸馏模型作为系统默认选项,借力补齐模型能力短板。苹果真正的威胁并非硬件端的追赶者,而是OpenAI等掌握顶尖模型能力、有望推出全新AI硬件颠覆市场的AI企业。
专访苹果芯片Doug Brooks:全行业“围攻”统一内存,为什么苹果不怕?
2026-06-07 17:10

专访苹果芯片Doug Brooks:全行业“围攻”统一内存,为什么苹果不怕?

本文来自微信公众号: 爱范儿 ,作者:发现明日产品的,原文标题:《专访苹果芯片 Doug Brooks:全行业「围攻」统一内存,为什么苹果不怕?》


2024年,Lunar Lake实现内存封装进芯片;25年Strix Halo将统一内存带宽推到256GB/s;26上半年面市的骁龙X2 Elite系列采用了类似的共享内存架构;本周,Windows on ARM行业再次团结在RTX Spark的旗帜下,发起挑战。


大,且统一的内存,用来驱动端侧AI:说白了,全行业都抄苹果的作业抄到飞起。


但现在的问题是,这些晚了苹果至少五、六年的对手,联合发起围攻,会奏效吗?苹果在统一内存架构上的底气从哪来?


在WWDC的前夜,爱范儿专访了苹果Apple silicon高级产品经理Doug Brooks。


比统一内存更重要的是内存带宽


谈起Apple silicon的设计逻辑,Brooks告诉我:苹果是一家不必考虑外部客户的芯片厂商。


「我们不是那种卖芯片的厂商——造一堆芯片,指望别人拿去塞进各种不同的系统,或者利用芯片的不同功能。我们的芯片只为我们自己的系统而设计,系统设计和芯片设计互为彼此的唯一影响。」


本质上,苹果的芯片设计者知道自己需要在芯片里针对何种工作负载、工作流去优化,而反过来,它丝毫不用担心做进芯片里的东西iPhone、iPad、Mac等设备利用不上。


光有架构上的领先还不够,Brooks反复强调的还有「均衡」。


得益于自初代A系列芯片便开始采用的统一内存架构,CPU、GPU(包括核内的神经网络加速器)、神经网络引擎(ANE/NPU)等核心计算单元全部位于同一片上,与封装内/片外的内存统一连接。


但比单片设计更关键的是,苹果的统一内存架构能够确保CPU、GPU以及神经网络引擎能够共享并调用这个庞大的内存池,如下图所示。


这是迄今为止我们在其它类似的统一内存架构产品上并未看到的。



而从M5 Pro/Max开始,苹果也走向两片式封装的融合架构。在这套架构上,单SoC内的片间互联位宽不是固定的,会随不同SKU增加。Brooks告诉爱范儿:


「一个系统有很多算力,内存带宽却不够?苹果不会做这样的系统。从M5到M5 Pro再到M5 Max,GPU核心数是两倍和四倍——M5芯片配备了10核GPU,到M5 Pro则扩展至20核GPU,而最高端的M5 Max更配备了40核GPU。


但你不应该只看到核心数增加,我们在内存位宽上也翻了倍——随着产品线的升级,我们还将每款芯片的统一内存带宽翻倍。只有这样才能确保用户需要的各种工作流被整个芯片的算力满足。」


苹果方面并未直接回应Apple silicon与其他市面方案的比较,不过爱范儿将几家采用类统一内存架构的公开规格放到一起比较:Strix Halo是256GB/s,GB10/RTX Spark是273GB/s,骁龙X2 Elite Extreme是228GB/s,苹果M5 Max最高614GB/s。


换句话说,目前行业已知的所有其它方案,内存带宽才刚摸到苹果中高端的水位,离最高端还差着一倍多。而他们追到这里,却已经用了不止两年的时间。


RTX Spark的裸片图像(die shot)显示,这枚「炸裂」级颠覆性的SoC,却又存在很明显的瓶颈:它由两枚芯片拼接起来,Blackwell GPU位于一侧,联发科CPU等其他元件位于另一侧,中间靠NVLink桥接。



DRAM和内存控制器位于CPU侧,GPU侧没有内存控制器,GPU访存需要经由NVLink借道CPU侧的内存控制器。


也就是说,尽管中间这个NVLink C2C的双向带宽能够达到约600GB/s,这块SoC的真实内存带宽并不会超过GB10的水平,也即封顶在273GB/s左右,四舍五入到300GB/s。


更值得一说的是,RTX Spark并非2026年的全新设计,甚至连2025年都算不上。从Computex现场照片中SoC上的2443刻印意味着它在2024年的第43周就已封装完成。


Die shot显示其CPU采用联发科2024年的公版X925和A725核心,在2026年已经落后至少一代甚至两代。


一颗两年前的处理器,重新包装一下也要当新片发——这本身就说明,统一内存的这阵风有多大。


领先者也有可改进空间


苹果的神经网络引擎(ANE)在2017年随A11芯片登场。在此前的文章中我们论证过,虽然在当时ANE仅用于和AI大体无关的神经网络计算场景,却为苹果迎接如今的AI热潮,特别是端侧AI工作流打下了关键基础。


好是好,但长久以来ANE都不是开放的——具体来说,虽然Core ML框架可以调用ANE,但苹果没有提供足够的工具和能力,让开发者可以自行决定何时、如何调用ANE来处理除推理外的负载。相当于一块算力金矿放在这里,门却被封上了。


于是在今年年初,社区开发者Manjeet Singh自己着手对M4处理器上的ANE进行逆向工程,结果居然真的成功了。他发现M4 ANE的功耗效率极高,算力跑满时每瓦足以提供6.6TOPS算力。



不仅如此,他后来还实现了仅调用ANE的算力,且完全越过Core ML限制的前提下,在一台M4 Mac mini上训练了一个完整的1亿参数的transformer模型:共用5万步,每步96毫秒,全程功耗不足1W(权重和Adam优化器仍然需要CPU支持,ANE+CPU功耗低于8W)。


原来,ANE也只是一个矩阵乘法计算器(INT8/FP16),而苹果官方对它的「仅推理」设定也只是一个设定,毕竟训练所用的反向矩乘也是矩乘。苹果只是没有为ANE提供公开的训练接口,于是Singh自己手搓了一个接口而已。


显然,人们对于ANE这座尚未被开采的金矿,是有着浓厚兴趣的。


它的诱人之处不止于ANE的功耗性能本身,更在于目前有超过10亿台活跃设备搭载它,让iPhone、iPad和Mac都可以在不影响电池续航和散热表现的前提下,不仅驱动传闻中即将到来的AI Siri等一系列Apple Intelligence功能,更有潜力处理今天的开发者尚未想象出来的高性能、低功耗的本地AI工作负载。


抑或他们早就想到,但实在是苹果之前并不开放ANE给他们用。


借这次专访,我们当面问了Brooks:开发者到底该怎么挑选计算单元,以及苹果怎么看社区对ANE的逆向。


他说,苹果提供了一系列不同层级的API,像Core ML这样的高层API,开发者可以直接说「帮我把这个模型跑起来」,让系统自己决定放在神经网络引擎还是GPU上(MLComputeUnits.all);亦或者,开发者也可以反过来说「我就要它跑在CPU、GPU或者ANE上」。


他特意加重了一句:「我们想给开发者尽可能多的控制。」


这其实说的是在WWDC 2025上,苹果首次在Metal 4中引入tensor作为原生资源类型,从而让用户可以更精细地控制在shader或者GPU核心内新增的神经加速器里进行计算。


Brooks并未直接回应对于逆向ANE这一事件,但还是给予了社区较高的评价:


「退一步从大局来看,Mac一直是个充满创新的AI平台。我们很高兴看到这么活跃的社区,在各个层面做着各种各样令人兴奋的工作,看到大量的开源研究和贡献。」


矿场的大门不会一直关闭,但是作为场主的苹果,历来对系统安全格外重视,把钥匙发给谁仍然需要谨慎决定。


此外爱范儿还看到,苹果在端侧模型上目前的进展则是另一种稍显遗憾。


苹果的Foundation Models框架,将苹果自行训练的端侧大模型直接做进了iOS和macOS系统本身。开发者通过简短的代码即可调用,没有云端API计费,无需购买token或者付费订阅,直接离线可用,数据也全程停留在本地并加密。这套架构,目前没有第二家给得出来。Brooks告诉爱范儿:


「不光免费,还不需要联网,随时随地都能在本地运行,这本身非常强大。更让我兴奋的是,Foundation Models API已经被数千个应用采用,去做各种大大小小的AI功能,不只是简单的文本处理,更是极强的生产力工具。」


但在今天,特别是苹果一直打交道的那些生产力最高、对于变革自己工作流最积极的专业用户,使用AI的方式早已经出离简单的对话界面,而是进入到了随时发起任务,就能调起几十上百个agent去分割、代理、互相校验、汇总的新工作流时代。


此时,这个本地「小」模型,本身足够聪明吗?


好在答案本身不是二选一。苹果目前的对策,是在Apple Intelligence中利用私密云计算技术(Private Cloud Compute),在安全和数据用后即焚的逻辑下调用云端更强大的模型。


眼下端侧模型,或者更具体来说苹果自己的端侧模型,其天花板清晰可见。约30亿参数,在苹果自己的技术报告里提到的擂台对手,是Qwen-2.5-3B、Gemma 3-4B等早期、参数量较小的模型。这个规模的模型,在做摘要、改写、修图等轻量生成任务上是把好手,应用场景潜力也颇大。


但一旦碰上复杂推理、代码、需要世界知识的任务,它和现如今OpenAI、Anthropic、Kimi、MiniMax等专为agent任务而训练的旗舰模型相比,还是捉襟见肘。根据此前最新的公开资料,苹果服务器端的模型尚且「落后于GPT-4o和Llama-4 Scout」,离第一梯队更是遥不可及。


说到底,苹果的护城河在于硬件,在整合,在真正的统一内存架构实现以及消费级电脑市场上难以企及的内存带宽上。但模型本身的能力,反而成了苹果这套体系里最令人担忧的一环。


但苹果或许留有一手。


WWDC见分晓?


一年一度的苹果全球开发者大会,即将于北京时间6月9日凌晨召开。


如果此前彭博社苹果专家Mark Gurman的爆料属实,苹果很有可能会用一个全新的Core AI框架来取代沿用多年的Core ML。这一传闻中的新框架,将首次允许开发者用他们再熟悉不过的方式,例如API,来直接接入任选(但原则上苹果认可)提供商的模型。



除此之外,传闻中苹果可能即将启用的新一代端侧基座模型,可能会是一个蒸馏自其他美国头部AI企业的新模型。甚至苹果自己也可能挑选Google、OpenAI、Anthropic等作为系统默认模型提供商。


苹果方面并未对以上传闻做出回应。


正如前面提到,在模型能力上苹果此前的确落后,而借力打力正是苹果过去多年来与其他硅谷巨头们「竞合」的核心思想——毕竟,没人不想打入数十亿台iPhone,成为默认的搜索引擎(以前),以及默认的AI引擎(现在)。


回头最开始的问题:当全行业对苹果的统一内存架构,在核心硬件产品的品类里发起围攻,苹果为什么并不害怕?


可能从一开始他们就找错了弱点。AMD、英伟达、高通、英特尔纷纷入局统一内存架构,但他们攻击的是苹果最坚硬的那一堵墙。无论怎么追赶,追赶的都是苹果的昨天。


真正令苹果感到危机的,并不是这群人,而是另一群后起之秀,以OpenAI为代表。


这不仅仅是因为OpenAI有意开发全新形态的AI硬件,来创造出一个新的、类似于iPhone和Mac的现象级品类,从而颠覆苹果;


更因为OpenAI、Anthropic们所最擅长的东西,包括并不限于模型本身,以及由新一代agentic模型所驱动的新工作、新生活、新计算方式,才是苹果最薄弱的地方。


苹果如何补强这些点?下周WWDC见分晓。


(本文所有对第三方厂商的分析内容均来自公开资料。苹果方面从未对第三方厂商公司做出评论。)

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定