韩国公司推出仅284mW功耗的LPU芯片，宣称在LLM推理能效上超越NVIDIA H100 33%，通过专用架构实现超低功耗高性能，但生态和通用性仍是挑战。 ## 1. 颠覆性芯片参数与性能 - 0.824mm²三星4nm工艺芯片，功耗仅284.31mW（手机充电器零头），却可处理13亿参数模型（1.25ms/token）和660亿参数模型（20.9ms/token@双芯片） - 能效比H100高1.33倍，速度超GPU 1.37-2.09倍，如同"蚂蚁举大象"的突破性对比（284mW vs H100的1100W） ## 2. 四大核心技术突破 - **SMA内存优化**：带宽利用率达90%（H100大模型仅70%），解决LLM推理的内存瓶颈 - **OIU智能调度**：预加载数据实现零等待，类似"智能管家"精准配送 - **SXE计算引擎**：定制MAC树阵列专攻向量乘矩阵，形成"高效生产线" - **ESL多芯片互联**：通信延迟隐藏技术使双芯片加速比达1.75倍（GPU仅1.38倍） ## 3. 软件生态与落地挑战 - HyperDex框架支持HuggingFace API，但生态建设需长期投入（对比CUDA十余年积累） - 目前仅限LLM推理场景，无法替代GPU的通用计算能力（训练/游戏/挖矿等） - 原型测试数据理想，实际场景效率待验证，存储依赖HBM成新瓶颈（"摩托拉油罐"问题） ## 4. 行业影响与未来展望 - 端侧推理潜力：284mW功耗或使手机本地运行大模型成为可能 - 专用芯片趋势：类似比特币ASIC替代GPU的历史可能重演，但NVIDIA生态护城河仍深 - 市场格局预示：AI推理芯片将百花齐放（Gorq/SambaNova等已入局），存算瓶颈转向存储优化

2026-04-01 08:36

功耗只有284mW的LPU，能跑大模型的吗？

歪睿老哥©

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

朋友们，今天聊个狠货。

一家韩国公司搞出了一颗AI推理芯片。

功耗284毫瓦。

对，你没看错，不是284瓦，是284毫瓦。

就这么点功耗，居然能在LLM推理上干翻NVIDIA H100。

吹牛能效比H100还高33%。

这事儿要是真的，那可就太刺激了。

咱们今天好好扒一扒这颗叫做LPU的芯片，到底是真神还是吹牛。

1.一颗只有指甲盖千分之一的芯片，凭什么这么猛？

先说参数，让你开开眼。

先说LPU这个名字，

这个就不太一样。

韩国人称这个是Latency Processing Unit的缩写，而不是LLMProcessing Unit（大语言模型专用处理器。

但是，这个的确是用来出来LLM大语言模型推理的。

只能说脑回路不太一样。

这玩意的架构是这样的。

作者说，通过三星4nm工艺，芯片面积0.824平方毫米。

什么概念？

你指甲盖大约100平方毫米，这颗芯片只有你指甲盖的不到1%。

功耗284.31毫瓦。

也就是你手机充电器的零头。

但就是这么一颗"袖珍"芯片，跑起活儿来一点不含糊。

处理13亿（1.3B）参数的大模型，速度1.25毫秒一个token。

两颗LPU跑660亿参数的大模型，速度20.9毫秒一个token。

比GPU快1.37到2.09倍。

重点来了：能效比H100高1.33倍，比L4高1.32倍。

朋友们，这事儿要是搁三年前，你跟人这么说，人家得说你疯了。

284毫瓦打1100瓦？

这就好比一只蚂蚁说自己能举起大象。

但HyperAccel还真就对比了

2.LPU的独门秘籍：快、准、狠

要说这颗芯片为啥这么猛，得从它的架构说起。

第一招：Streamlined Memory Access（SMA）

这是个啥？

简单说，就是专门优化了内存访问。

大模型推理最怕什么？

不是算力不够，是内存带宽成了瓶颈。

GPU为啥效率低？

因为它设计的时候是为了并行计算，一大堆核心同时干活。

但LLM推理的特点是，每次只处理一个向量，搞完再搞下一个。

GPU那么多核心，大部分时候都在干瞪眼。

LPU不一样，它专门为大模型推理设计了"流线型"内存访问。

数据从HBM进来，直接送到计算单元，中间不绕弯子。

带宽利用率能到90%。

H100呢？小模型才28.5%，大模型也就70%左右。

这就是差距。

第二招：Operand Issue Unit（OIU）

这玩意儿负责调度数据。

像个智能管家，提前把要用的数据准备好，计算单元一需要，立马送上。

不让你等着。

第三招：Streamlined Execution Engine（SXE）

这是LPU的计算核心。

里面塞了一堆定制的MAC树（乘加运算单元）。

专门干向量乘矩阵的活。

这是大模型推理里最耗时的操作。

LPU把这些MAC树排得整整齐齐，数据流进来，一路算到底，中间不停顿。

就像一条高效的生产线。

第四招：ESL（Expandable Synchronization Link）

这是LPU的大招。

跑大模型，一颗芯片内存不够，得用多颗。

多颗芯片之间怎么通信？

GPU用NVLink，900GB/s，看着挺快。

但问题是，通信的时候计算得停下来等着。

这一等，效率就下来了。

双GPU加速比平均只有1.38倍，四GPU更低。

LPU的ESL不一样，它能把通信延迟藏起来。

通信和计算能重叠进行。

结果是，双LPU加速比能到1.75倍，接近理论极限的2倍。

这scalability，GPU看了都得跪。

3.软件生态：HyperDex，让用起来不那么痛苦

硬件再牛，软件不好用也是白搭。

HyperAccel搞了个叫HyperDex的软件框架。

功能挺全：

自动编译，根据模型参数生成内存映射和指令。

支持HuggingFace API，现在主流的LLM模型都能跑。

这对开发者来说是好事，不用从头学一套新东西。

不过话说回来，一个新架构的生态建设是个长期工程。

NVIDIA护城河那么深，CUDA生态都建了十几年了。

LPU想撼动这个地位，光有性能优势还不够。

得看后续能不能吸引更多开发者和厂商上车。

4.LPU能干翻NVIDIA吗？先别急着下结论

说到这里，你可能会问：

老哥，LPU这么猛？

我得说，这是原型芯片。

第一，这是原型的专用芯片，不是通用芯片。

LPU只能跑大模型推理，别的活儿干不了。

GPU能训练、能推理、能打游戏、能挖矿，啥都能干。

应用场景完全不一样。

第二，论文和量产是两回事。

论文里的数据是在理想条件下测的。

真实场景里，模型千奇百怪，请求五花八门，能不能保持这个效率还不好说。

第三，生态差距太大。

NVIDIA有CUDA，有TensorRT，有一大堆优化好的库。

这个LPU现在还只是个newcomers。

但话说回来，专用芯片在特定领域干翻通用芯片，这事儿以前也发生过。

比特币挖矿不就是吗？

一开始都用GPU挖，后来专用ASIC一出，GPU直接出局。

大模型推理会不会走这条路？

还真有可能。

毕竟推理这活儿相对固定，不像训练那么复杂。

如果专用芯片能把成本和功耗打下来，云厂商没理由不用。

5.这事儿对我们意味着什么？

作为普通用户，你可能觉得这事跟自己没啥关系。

但还真不一定。

端侧推理AI芯片可能会爆发。

284毫瓦的功耗，放手机上也不是不能用。

以后你的手机说不定能本地跑大模型，不用联网。

隐私、延迟、费用，全都解决了。

但是，目前看，存储是瓶颈。

这个284毫瓦的芯片，用了FPGA原型上的HBM来存储数据。

这就好像一个摩托（AI推理芯片）拉着一个大油罐（HBM）。

不过，从这也能看出来，

目前大模型推理芯片的瓶颈更多在存，而不是算。

6.最后说几句

LPU这颗芯片，让我看到了专用AI芯片的潜力。

在特定场景下，专用架构确实能比通用架构高效得多。

但要说它能颠覆NVIDIA，现在还为时尚早。

毕竟生态不是一天能建起来的。

不过有一点是确定的：

AI推理芯片这场仗，早晚百花齐放。

前有Gorq，SambaNova，Tenstorrent，Taalas等等。

未来也会有更多的架构参与其中。

你觉得专用A推理芯片能撼动NVIDIA的地位吗？

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP