IBM研究团队在14纳米模拟AI芯片上成功运行ALBERT模型,仅产生1.8%准确率损失,通过存内计算和物理定律实现高效推理,挑战传统GPU依赖路径。 ## 1. 突破性技术:存内计算与物理定律的融合 - 使用3500万个相变存储单元直接存储权重,通过欧姆定律和基尔霍夫定律完成矩阵乘法,消除数据搬运瓶颈 - 14纳米工艺芯片集成34个计算Tile,在7个GLUE任务中平均准确率仅比浮点参考模型低1.79%,其中MRPC和QNLI任务达到等同精度 ## 2. 应对模拟器件挑战的创新方案 - 硬件感知训练:通过注入芯片噪声的微调使模型耐受误差,准确率提升4.4% - 漂移补偿技术:利用训练集校准抵消相变存储器的电导衰减,将30天漂移影响从5%降至1%以内 - 实验显示12层Transformer在第11层提前退出时准确率仅损失0.4%,验证能效优化潜力 ## 3. 对AI发展路径的范式挑战 - 与传统"堆参数"路线形成对比:710万参数模型在单芯片实现,无需GPU集群或云端服务 - 证明模拟推理可行性:在存在编程误差、噪声和器件变异情况下仍保持高精度 - 论文价值在于首次在物理芯片(非仿真)实现Transformer推理,为边缘AI提供新方向 ## 4. 工程局限与未来优化空间 - 当前设计未充分优化吞吐量和能效,未实现流水线化 - 相变存储器存在写入寿命限制和精度缺陷,需持续改进器件稳定性 - 研究者指出通过更好的映射策略和宏能效Tile设计可进一步提升性能
不堆GPU,不搬数据,只用欧姆定律:模拟AI芯片跑出了1.8%误差的ALBERT
2026-05-07 20:35

不堆GPU,不搬数据,只用欧姆定律:模拟AI芯片跑出了1.8%误差的ALBERT

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


2025年8月22号,Nature Communications发了一篇论文。


论文的第一作者是IBM Almaden实验室的一个研究员。IBM Tokyo、IBM Yorktown、还有IBM Albany的一个纳米技术中心,联合起来干了一件事。


他们在一片14纳米的芯片上,用相变存储器跑了710万个参数的Transformer模型。


准确率和纯浮点数算出来的结果,差了1.8个百分点。


这事儿挺猛的。


先说具体数据。


14纳米工艺。34个模拟计算Tile。3500万个相变存储单元。其中2830万个精确写入了权重。


模型是ALBERT。一个12层的Transformer Encoder,710万独特参数,12层共享。在GLUE基准测试上跑了7个NLP任务。



硬件准确率:MRPC和QNLI两个任务达到了完全等同精度。QQP只差0.2个百分点。


剩下的任务,RTE、CoLA、SST-2、SST-2,也都只差了不到5个百分点。


平均下来,七个任务的硬件准确率,比纯浮点数参考模型低了1.79%。


1.8%。


在3500万个模拟器件上,在存在编程误差、硬件缺陷、读出噪声、误差传播的情况下,只差了1.8%。


说人话,是怎么回事。


传统芯片做矩阵乘法,先把权重从内存读到处理器,算完再写回内存。反复搬数据。这就是所谓的冯诺依曼瓶颈。


IBM这帮人不走这条路。


他们在芯片里塞了3500万个相变存储器。每个存阻器能编程到连续的模拟状态。权重直接存在存阻器的电导里。


矩阵乘法在存储单元内部就做完了。电流就是数据,欧姆定律就是乘法,基尔霍夫电流定律就是累加。算完直接出来,不需要搬来搬去。


这叫存内计算。Compute-In-Memory。


沙子做的芯片,用物理定律直接算矩阵乘法。


但这事儿没那么简单。


模拟器件不是数字晶体管。它有噪声。有误差。有漂移。


相变存储器尤其有意思。你用电流熔一小块区域,然后快速冷却,它就变成非晶态——高电阻。再用电流加热到结晶温度,它就变成晶态——低电阻。中间态也能编程。


但问题在于,非晶态不是稳定的。它会随时间松弛。电导会慢慢下降。大约30天降5%。


更麻烦的是,每个存阻器的漂移速度都不一样。模型权重分布在时间中逐渐变宽。


IBM这帮人想了两个招。


第一个招是硬件感知训练。在微调的时候注入模拟芯片特有的噪声,让模型权重学会耐受这些噪声。加上这个微调,硬件准确率平均提高了4.4%。


第二个招是漂移补偿。每做一次推理之前,用训练集跑一轮校准,测量存阻器的当前状态,生成新的缩放参数。校准后,30天的漂移导致的准确率下降从5%降到1%以下。


这两个招都是软件层面的。硬件还是那块硬件,问题还是在芯片上。但软件修补之后,效果几乎没损失。


有意思的是,这帮人还做了早退实验。


12层的Transformer,不一定非要跑完12层。在第11层结束的时候,七个任务的平均准确率只比第12层低了0.4%。


如果提前退出,省下的能耗和时间是实打实的。


不过论文里说的是一个假设。因为这批硬件的设计重点是把所有权重塞进一块芯片,没有做流水线和管道化。throughput和效率都还没榨干。


论文里也说了,未来的芯片如果能支持更好的映射策略、细粒度流水线、以及更高的宏能效tile,性能还能大幅提升。


我其实一直在想一个问题。


现在AI圈的主流叙事是什么?越来越大。模型越来越大。数据集越来越大。算力集群越来越贵。


OpenAI在堆参数。Google在堆参数。Meta在堆参数。所有人都在比谁的模型更大,谁的显卡更快,谁的集群更贵。


但IBM这帮人在干一件事儿。


他们在一片小小的14纳米芯片上,用物理定律做矩阵乘法。不搬数据。不依赖GPU集群。不做云端推理。


这是一条完全不同的路。


不是追求更大更快。而是追求更小更省。


当然,这条路还有很多坑。


模拟芯片对噪声敏感。对温度敏感。对器件变异敏感。存阻器有写入寿命限制。精度也不如数字芯片。


但这篇论文证明了一件事。模拟推理是可行的。在合理的设计下,误差可以被补偿到可接受的范围内。


3500万个器件。1.8%的误差。在GLUE基准上接近完美。


这不是一个完美的解决方案。但它是一个可行的起点。


说回这篇论文本身。


它的价值不在于芯片本身。3500万个存阻器,14纳米,这些数字只是工程上的里程碑。


它的价值在于证明了一件事。Transformer模型可以在模拟硬件上运行。而且准确率几乎不损失。


这意味着什么?


意味着AI推理不一定需要庞大的GPU集群。不一定需要昂贵的云端服务。不一定需要巨大的能耗。


一块小小的芯片,用物理定律做计算,就能跑一个12层的Transformer。


这个方向其实早就有人在做。但大多数研究都停留在模拟层面。或者说,停留在论文里的仿真。


这篇论文不一样。它不是在仿真。它是在真实的物理芯片上跑真实的模型,跑真实的benchmark。


3500万个真实的存阻器。真实的电导漂移。真实的读出噪声。真实的1.8%准确率损失。


这是真实的。


我其实有点意外。


不是因为1.8%的准确率损失。这个数据已经很好了。


是因为这件事的朴素。


一片芯片。3500万个存阻器。物理定律做矩阵乘法。没有花哨的分布式训练。没有复杂的并行策略。就是老老实实用欧姆定律和基尔霍夫定律算出来的。


但这恰恰是它最打动人心的地方。


当所有人都在堆参数堆算力的时候,有人选择回到最基本的问题。用最基本的物理原理,做最基本的矩阵乘法。


效率从底层来,而不是从规模来。


这玩意太酷了。


参考《Demonstration of transformer-based ALBERT model on a 14nm analog AI inference chip》

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP