韩国公司推出仅284mW功耗的LPU芯片,宣称在LLM推理能效上超越NVIDIA H100 33%,通过专用架构实现超低功耗高性能,但生态和通用性仍是挑战。 ## 1. 颠覆性芯片参数与性能 - 0.824mm²三星4nm工艺芯片,功耗仅284.31mW(手机充电器零头),却可处理13亿参数模型(1.25ms/token)和660亿参数模型(20.9ms/token@双芯片) - 能效比H100高1.33倍,速度超GPU 1.37-2.09倍,如同"蚂蚁举大象"的突破性对比(284mW vs H100的1100W) ## 2. 四大核心技术突破 - **SMA内存优化**:带宽利用率达90%(H100大模型仅70%),解决LLM推理的内存瓶颈 - **OIU智能调度**:预加载数据实现零等待,类似"智能管家"精准配送 - **SXE计算引擎**:定制MAC树阵列专攻向量乘矩阵,形成"高效生产线" - **ESL多芯片互联**:通信延迟隐藏技术使双芯片加速比达1.75倍(GPU仅1.38倍) ## 3. 软件生态与落地挑战 - HyperDex框架支持HuggingFace API,但生态建设需长期投入(对比CUDA十余年积累) - 目前仅限LLM推理场景,无法替代GPU的通用计算能力(训练/游戏/挖矿等) - 原型测试数据理想,实际场景效率待验证,存储依赖HBM成新瓶颈("摩托拉油罐"问题) ## 4. 行业影响与未来展望 - 端侧推理潜力:284mW功耗或使手机本地运行大模型成为可能 - 专用芯片趋势:类似比特币ASIC替代GPU的历史可能重演,但NVIDIA生态护城河仍深 - 市场格局预示:AI推理芯片将百花齐放(Gorq/SambaNova等已入局),存算瓶颈转向存储优化
功耗只有284mW的LPU,能跑大模型的吗?
2026-04-01 08:36

功耗只有284mW的LPU,能跑大模型的吗?

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


朋友们,今天聊个狠货。


一家韩国公司搞出了一颗AI推理芯片。


功耗284毫瓦。


对,你没看错,不是284瓦,是284毫瓦。


就这么点功耗,居然能在LLM推理上干翻NVIDIA H100。


吹牛能效比H100还高33%。


这事儿要是真的,那可就太刺激了。


咱们今天好好扒一扒这颗叫做LPU的芯片,到底是真神还是吹牛。


1.一颗只有指甲盖千分之一的芯片,凭什么这么猛?


先说参数,让你开开眼。


先说LPU这个名字,


这个就不太一样。


韩国人称这个是Latency Processing Unit的缩写,而不是LLMProcessing Unit(大语言模型专用处理器。


但是,这个的确是用来出来LLM大语言模型推理的。


只能说脑回路不太一样。


这玩意的架构是这样的。



作者说,通过三星4nm工艺,芯片面积0.824平方毫米。


什么概念?


你指甲盖大约100平方毫米,这颗芯片只有你指甲盖的不到1%。


功耗284.31毫瓦。


也就是你手机充电器的零头。


但就是这么一颗"袖珍"芯片,跑起活儿来一点不含糊。


处理13亿(1.3B)参数的大模型,速度1.25毫秒一个token。


两颗LPU跑660亿参数的大模型,速度20.9毫秒一个token。


比GPU快1.37到2.09倍。


重点来了:能效比H100高1.33倍,比L4高1.32倍。


朋友们,这事儿要是搁三年前,你跟人这么说,人家得说你疯了。


284毫瓦打1100瓦?


这就好比一只蚂蚁说自己能举起大象。


但HyperAccel还真就对比了


2.LPU的独门秘籍:快、准、狠


要说这颗芯片为啥这么猛,得从它的架构说起。



第一招:Streamlined Memory Access(SMA)


这是个啥?


简单说,就是专门优化了内存访问。


大模型推理最怕什么?


不是算力不够,是内存带宽成了瓶颈。


GPU为啥效率低?


因为它设计的时候是为了并行计算,一大堆核心同时干活。


但LLM推理的特点是,每次只处理一个向量,搞完再搞下一个。


GPU那么多核心,大部分时候都在干瞪眼。


LPU不一样,它专门为大模型推理设计了"流线型"内存访问。


数据从HBM进来,直接送到计算单元,中间不绕弯子。


带宽利用率能到90%。


H100呢?小模型才28.5%,大模型也就70%左右。


这就是差距。


第二招:Operand Issue Unit(OIU)


这玩意儿负责调度数据。


像个智能管家,提前把要用的数据准备好,计算单元一需要,立马送上。


不让你等着。


第三招:Streamlined Execution Engine(SXE)


这是LPU的计算核心。


里面塞了一堆定制的MAC树(乘加运算单元)。


专门干向量乘矩阵的活。


这是大模型推理里最耗时的操作。


LPU把这些MAC树排得整整齐齐,数据流进来,一路算到底,中间不停顿。


就像一条高效的生产线。


第四招:ESL(Expandable Synchronization Link)


这是LPU的大招。


跑大模型,一颗芯片内存不够,得用多颗。


多颗芯片之间怎么通信?


GPU用NVLink,900GB/s,看着挺快。


但问题是,通信的时候计算得停下来等着。


这一等,效率就下来了。


双GPU加速比平均只有1.38倍,四GPU更低。


LPU的ESL不一样,它能把通信延迟藏起来。


通信和计算能重叠进行。


结果是,双LPU加速比能到1.75倍,接近理论极限的2倍。



这scalability,GPU看了都得跪。


3.软件生态:HyperDex,让用起来不那么痛苦


硬件再牛,软件不好用也是白搭。


HyperAccel搞了个叫HyperDex的软件框架。


功能挺全:


自动编译,根据模型参数生成内存映射和指令。


支持HuggingFace API,现在主流的LLM模型都能跑。


这对开发者来说是好事,不用从头学一套新东西。


不过话说回来,一个新架构的生态建设是个长期工程。


NVIDIA护城河那么深,CUDA生态都建了十几年了。


LPU想撼动这个地位,光有性能优势还不够。


得看后续能不能吸引更多开发者和厂商上车。


4.LPU能干翻NVIDIA吗?先别急着下结论


说到这里,你可能会问:


老哥,LPU这么猛?


我得说,这是原型芯片。


第一,这是原型的专用芯片,不是通用芯片。


LPU只能跑大模型推理,别的活儿干不了。


GPU能训练、能推理、能打游戏、能挖矿,啥都能干。


应用场景完全不一样。



第二,论文和量产是两回事。


论文里的数据是在理想条件下测的。


真实场景里,模型千奇百怪,请求五花八门,能不能保持这个效率还不好说。


第三,生态差距太大。


NVIDIA有CUDA,有TensorRT,有一大堆优化好的库。


这个LPU现在还只是个newcomers。


但话说回来,专用芯片在特定领域干翻通用芯片,这事儿以前也发生过。


比特币挖矿不就是吗?


一开始都用GPU挖,后来专用ASIC一出,GPU直接出局。


大模型推理会不会走这条路?


还真有可能。


毕竟推理这活儿相对固定,不像训练那么复杂。


如果专用芯片能把成本和功耗打下来,云厂商没理由不用。


5.这事儿对我们意味着什么?


作为普通用户,你可能觉得这事跟自己没啥关系。


但还真不一定。


端侧推理AI芯片可能会爆发。


284毫瓦的功耗,放手机上也不是不能用。


以后你的手机说不定能本地跑大模型,不用联网。


隐私、延迟、费用,全都解决了。


但是,目前看,存储是瓶颈。


这个284毫瓦的芯片,用了FPGA原型上的HBM来存储数据。


这就好像一个摩托(AI推理芯片)拉着一个大油罐(HBM)。


不过,从这也能看出来,


目前大模型推理芯片的瓶颈更多在存,而不是算。


6.最后说几句


LPU这颗芯片,让我看到了专用AI芯片的潜力。


在特定场景下,专用架构确实能比通用架构高效得多。


但要说它能颠覆NVIDIA,现在还为时尚早。


毕竟生态不是一天能建起来的。


不过有一点是确定的:


AI推理芯片这场仗,早晚百花齐放。


前有Gorq,SambaNova,Tenstorrent,Taalas等等。


未来也会有更多的架构参与其中。


你觉得专用A推理芯片能撼动NVIDIA的地位吗?

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP