本文讲述Cerebras推出全球最大的晶圆级AI芯片，其面临物理结构硬约束，最终因AI推理需求爆发翻盘，核心是对模型蒸馏速度的产业对赌。 ## 1. 疯狂方案：不切晶圆的巨型芯片 Cerebras CEO Andrew Feldman认为GPU数据搬运效率低，解决方案是将一整片硅晶圆做成一颗芯片，不进行切割，从物理上消除数据跨芯片搬运的瓶颈。这颗餐盘大小的芯片，面积是英伟达最大GPU的56倍，从构想到上市耗时十年，研发三年累计烧掉近2亿美元，通过冗余设计解决良率问题，从零定制液冷、供电和专用组装工具，2019年才研发成功第一代产品WSE-1。 ## 2. 物理囚笼：结构性瓶颈无法突破最新的WSE-3采用台积电5nm工艺，有4万亿晶体管、90万个AI核心，一半面积用于片上SRAM存储，共44GB，片上带宽达21PB/s，是GPU HBM带宽的约一千倍，推理速度可达每秒1000个Token。芯片存在三大不可突破的硬约束：44GB片上存储远小于英伟达最新Rubin GPU的288GB，大模型放不下；受晶圆均匀印刷的几何限制，对外互联带宽仅150GB/s，不到英伟达单颗GPU的六分之一，多芯片流水线速度优势缩水；SRAM面积随制程进步停滞缩放，5nm到3nm存储密度零增长，容量锁死在44GB天花板。 ## 3. 行业转向：推理需求带来翻盘契机 2019年亮相后五年间AI行业侧重训练，Cerebras芯片只擅长推理长期无人问津，2024年近九成收入来自阿布扎比G42，IPO因外资背景撤回。 2025年后Agentic AI普及，开发者对推理延迟敏感度大幅提升，行业出现开发者宁愿保留低参数更快模型，也不切换高参数慢模型的情况，推理速度开始值钱。2026年OpenAI与Cerebras签下超100亿美元推理算力合同，同年Cerebras成功纳斯达克上市，市值一度达600亿美元，是2019年以来美国最大科技IPO。 ## 4. 终极对赌：蒸馏速度能否跑赢摩尔定律 OpenAI对Cerebras深度绑定：既是最大客户，提供10亿美元担保贷款，还拿到约等于白送的认股权证，完全摊薄后持股12%，Cerebras同时承担巨额交付压力，2026-2028年需交付的服务器总量是成立以来总出货量的一个数量级。当前600亿美元市值的本质，是行业押注**蒸馏技术进步速度会快于摩尔定律**：若蒸馏足够快，一年内1200亿参数小模型就能追上当前万亿参数前沿模型水平，44GB容量就能满足主流推理需求，Cerebras将成为推理时代核心基础设施；若蒸馏速度不足，物理瓶颈将永久困住这颗巨型芯片，对赌结果大概率一年内就会揭晓。

2026-06-11 13:18

Cerebras的故事：一颗餐盘大小的芯片

AI超维度

本文来自微信公众号： AI超维度，作者：北京汉·索罗

2026年5月，Cerebras在纳斯达克上市，市值一度冲到600亿美元。这是2019年以来美国最大的科技IPO。

上市当天，CEO Andrew Feldman举起那颗餐盘大小的芯片，照片传遍了科技媒体。一颗普通芯片只有指甲盖那么大，英伟达最强的GPU也不过巴掌大小。Cerebras的芯片占满了一整片硅晶圆，面积是英伟达最大GPU的56倍。

这颗芯片从构想到上市花了十年。其中有三年，做它的公司每月烧800万美元，每隔几周去董事会汇报，总是失败而归。

疯狂的想法：不切晶圆

Feldman在硅谷创业圈不算新人。他之前创办过一家叫SeaMicro的服务器公司，2012年被AMD以3.34亿美元收购。他和四个核心搭档在AMD待了两年就出来了，2016年重新聚到一起，开始琢磨一个更大的问题。

当时AI芯片行业的主角是GPU。GPU原本是给游戏做图形渲染的，后来被发现碰巧很擅长做AI需要的大规模并行计算，英伟达借此拿下了市场。但Feldman的判断是：GPU虽然算得快，但数据搬运效率很低。一台AI服务器里有几千颗小芯片，数据在芯片之间不停搬家，每搬一次就消耗功耗、增加延迟。在他看来，芯片算得再快，数据搬不过来也白搭。

如果数据搬运是瓶颈，能不能从根源上消灭搬运？

Feldman的解决方案在当时听起来接近疯狂：直接把一整片晶圆变成一颗巨大的芯片。

这里需要解释一下大部分芯片是怎么造出来的。做芯片的起点是一片圆形的硅晶圆，它就像一张光滑的银色圆盘，直径30厘米，和餐盘差不多大小。工厂在这片晶圆上用光刻机反复印刷同一个电路图案，每印一次覆盖指甲盖到巴掌之间的面积，整片晶圆上能印几十次。印完之后，沿着图案之间的缝隙把晶圆切开，一片晶圆就变成几十颗独立的芯片——和用模具在一大张面皮上压出饼干，道理完全一样。英伟达的GPU、苹果的手机芯片、高通的通信芯片，全世界几乎所有芯片都是这么造出来的。

图片由AI生成，芯片制作过程

Cerebras想做的事情是：不把晶圆切开。84次印刷的图案不再各自独立，而是通过印刷区域之间的缝隙彼此连线，拼成一整颗巨大的芯片。一张面皮不压饼干，整张就是产品。这样一来，数据在芯片内部流动时，永远不需要离开硅片——不用通过外部线路跳到另一颗芯片上，不用排队等互联带宽。

搬运的问题，从物理上消失了。

烧掉两亿美元

想法有了，但要把一整片晶圆变成一颗能工作的芯片，每一步都没有先例。

首先是良率。光刻机每次只能印大约3厘米见方的图案，这也是全世界最大的芯片不过巴掌大小的原因。芯片面积越大，碰到制造缺陷的概率就越高。Cerebras的芯片是这个上限面积的54倍，按常规概率，不可能有一片晶圆完全没有缺陷。他们用冗余来解决：芯片上刻97万个核心但只启用90万个，每批晶圆单独定制一套金属层模版绕过那一批特有的缺陷，换来接近100%的良率。

然后是散热。25千瓦的功耗集中在21.5厘米见方的硅片上，风冷远远不够，蒸汽腔散热器又因为尺寸过大会失效。他们从零设计了一套全定制液冷系统：冷板、晶圆、柔性连接器、PCB四层叠在一起，冷却液要求21°C入水，数据中心需要配6000吨级冷水机组。

还有供电。84个定制的Vicor电源模块，50伏→12伏→1伏逐级转换，把超过两万瓦的电力精确送到一片硅上。他们甚至发明了一台能同时拧40颗螺丝而不碎裂晶圆的组装工具。

2016年拿了A轮2700万美元之后，Cerebras从公众视野里消失了三年。到2019年年中，累计烧掉了将近2亿美元。

2019年7月的一天，芯片跑通了。五个创始人站在实验室里看指示灯闪烁。Feldman后来跟TechCrunch说："看电脑跑程序和看油漆干一样无聊。但我们五个人一动不动站在那里。那是我人生中最伟大的时刻之一。"

一个月后，斯坦福大学召开Hot Chips大会。Cerebras揭开了第一代晶圆级芯片WSE-1：1.2万亿个晶体管，40万个AI核心，覆盖一整片晶圆。现场没有人在过去见过这种东西。

无人问津的孤岛

从WSE-1到现在，Cerebras的芯片迭代了三代。最新的WSE-3由台积电5nm工艺制造，4万亿个晶体管，90万个AI核心。但决定这颗芯片命运的不是算力有多大，而是一个设计决策带来的一对矛盾。

WSE-3把芯片面积的一半给了一种叫SRAM的高速存储——一共44GB，直接刻在计算核心旁边。和GPU使用的外挂HBM内存不同，SRAM的数据不需要离开芯片就能被读取，片上带宽达到21PB/s，是GPU HBM带宽的大约一千倍。AI推理在生成回答时（即上一篇提到的decode阶段），每吐出一个Token都要把模型权重从内存完整读一遍。英伟达的GPU要去芯片外面的HBM搬数据，而Cerebras的WSE不用搬，因为数据就在旁边。而且，通道一下从四车道变成四千车道。

这就是Cerebras能做到每秒生成一千个Token的原因。

但44GB是个天花板。44GB的片上存储在芯片行业已经是巨量，普通芯片按百兆字节算。可它和GPU的外挂HBM一比就不够看了：英伟达最新的Rubin GPU单卡288GB，是一整片WSE-3的6.5倍。大模型动辄几千亿甚至上万亿参数，再加上长上下文需要的存储空间，44GB根本装不下。如果模型太大，就得把模型切成多片、分到多片晶圆上做流水线。但WSE和外界通信的总带宽只有150GB/s，不到英伟达单颗GPU互联带宽的六分之一。每多一片晶圆就多一个瓶颈，速度优势随之缩水。

为什么对外带宽这么低？这不是工程师忘了加接口，而是晶圆级架构的几何代价。前面说过，光刻机在晶圆上印刷84次，每次图案必须完全一样，相邻区域才能无缝拼接。如果想在晶圆边缘加装高速数据接口，就得在每次印刷的图案里都加上接口电路。但84个区域里只有最外圈的十几个能真正连到外面的世界，中间几十个区域被邻居团团围住，接口电路造了也接不出去，硅面积浪费了，芯片内部的数据通路还被打出一个个洞。让晶圆级芯片成为可能的均匀印刷方式，恰恰是让对外通信极难扩展的原因。这不是工程问题，是几何必然。

还有一个更长期的限制。SRAM的面积不再随芯片制程进步而缩小。WSE-1用16nm工艺，18GB SRAM。WSE-2升级到7nm，SRAM跳到40GB，增长2.2倍。但WSE-3到了5nm，44GB，只比上一代多了10%。这不是Cerebras的问题，是整个行业的趋势：台积电的3nm工艺在SRAM面积上相比5nm零缩减。Cerebras的下一代系统CS-4仍然用同一块WSE-3芯片，SRAM锁死在44GB。

内部极快，对外极窄，容量到顶。这颗餐盘大的芯片被困在一座孤岛上——速度优势真实存在，但受到物理定律的硬约束。大多数分析把这些局限当作"有待解决的工程挑战"，但SRAM缩放停滞是整个半导体产业的物理趋势，I/O瓶颈是晶圆级架构的几何必然，都不是换个更先进的制程就能解决的事情。这颗芯片已经接近它的结构性天花板。

那么Cerebras的命运取决于什么？不是自己的芯片能不能变好——而是别人的模型能不能变小。

这个问题在2019年没有人在乎。

从WSE-1亮相到2024年，整整五年，AI行业的全部注意力都在训练上：谁的模型更大、谁的算力更猛。英伟达的GPU为训练而生，拿下了超过八成的市场。用户在ChatGPT的对话框里等两秒钟也不会抱怨。推理快不快，没有人在乎。

Cerebras拿着一颗只擅长推理的巨型芯片，敲不开大门。唯一的大客户是G42，一家阿布扎比的AI公司，2024年上半年贡献了Cerebras总收入的近九成。2024年9月，Cerebras第一次提交IPO申请，G42的阿联酋背景触发了CFIUS（美国外国投资委员会）审查，审查遥遥无期。2025年10月，Cerebras正式撤回上市申请。

一个细节值得记住：大约2017年，OpenAI曾讨论过收购Cerebras，Feldman后来对TechCrunch承认了这件事。据报道Elon Musk在2018年也试过。Feldman两次都说了不。

推理速度开始值钱了

变化发生在2025年下半年。变的不是技术，是用户行为。

Claude Code和一批Agentic AI工具进入了开发者的日常工作流。Agent不是陪用户聊天，它要反复调用模型、实时生成、即时反馈，对推理延迟的敏感度比普通对话高出一个量级。Anthropic推出了Opus 4.6的fast模式：6倍价格，2.5倍速度。到2026年4月，半导体研究机构SemiAnalysis发现自己80%的AI开支——年化峰值1000万美元——砸在了fast模式上。更能说明问题的是：当更聪明的Opus 4.7发布时，他们的工程师拒绝切换，唯一的理由是Opus 4.7没有fast模式。

AI行业从未出现过这种事。开发者主动留在一个更笨的模型上，只因为它更快。

推理速度变值钱了。Cerebras那座孤岛，突然有人想起来了。

2025年12月25日，英伟达花200亿美元签下Groq的技术和核心团队，三周后，2026年1月14日，OpenAI和Cerebras签下超过100亿美元的推理算力合同。全球最大的GPU公司和全球最大的AI模型公司，几乎在同一时间做了同一个判断：GPU自己搞不定推理，需要另一种芯片。英伟达把Groq吸收进了自己的体系。OpenAI选择在英伟达的体系之外下注。

2月12日，第一个成果落地。OpenAI发布了GPT-5.3-Codex-Spark，这是OpenAI第一个不跑在英伟达芯片上的生产模型，运行在Cerebras的WSE-3上，每用户每秒超过1000个Token。

但这里有一个容易被忽略的事实。Codex-Spark的每秒1000 Token，是在一个1200亿参数的蒸馏模型上实现的，它不是真正的GPT-5.3-Codex（万亿参数级），而是后者的十分之一大小，用大模型的输出蒸馏训练而成。正是因为模型小到能装进WSE-3的44GB SRAM，速度才能拉到这个水平。换句话说，Cerebras的速度优势有一个前提条件：模型必须足够小。

这是很多人对Cerebras的误解所在：看到"每秒1000 Token"就觉得它比GPU快了几十倍，实际上这个速度只存在于一个精心选择的模型规模区间。Cerebras的孤岛容不下巨兽，但如果你愿意带一个身形更小的模型登岛，它能跑得比任何地方都快。

OpenAI的赌注就藏在这个取舍里：不追求在最大模型上跑得稍微快一点，而是蒸馏出一个小得多的模型，然后在速度上拉开一个数量级的差距。用智力换速度，用蒸馏换延迟。赌的是在足够多的场景里，够聪明加上极快，胜过最聪明但更慢。

今年3月，AWS宣布多年合作：Trainium芯片做prefill，WSE-3做decode，通过Amazon Bedrock对外提供服务。5月，Cerebras上市。从撤回IPO到市值600亿，只花了七个月。

三条线都绑定在Open AI上

支撑这个翻盘的不只是技术。是一笔把Cerebras和OpenAI深度绑定的交易。

合同条款在Cerebras的上市招股书（S-1）里写得很清楚：750兆瓦推理算力，2026到2028年分批部署，每批合同期3-4年、可延至5年。OpenAI另有选择权加购1.25吉瓦，总潜力达到2吉瓦。截至2025年底，Cerebras披露的剩余履约义务为246亿美元。

但OpenAI对于Cerebras来说，角色远不止是客户。

它同时提供了10亿美元的担保贷款，年息6%——如果Cerebras以算力交付来偿还可以免息，但合同一旦终止则全额立即到期。OpenAI还保留了指示托管银行直接控制这笔资金用途的权利。

它还拿到了3345万股认股权证，行权价每股0.00001美元——约等于白送。完全摊薄后OpenAI可持有Cerebras 12%的股份。Sam Altman本人还是Cerebras的早期投资人。

债权、股权、收入管道——三条线都绑在Open AI上。

市场对Cerebras最常见的风险提示是"客户集中度高"。这个说法轻描淡写了。客户集中度高意味着你丢掉一个大客户会很疼。Cerebras面对的，是它的贷款方、最大潜在股东和几乎唯一的收入来源是同一个实体，三条线同向，没有任何对冲。这不是"集中"，是一体。2017年OpenAI想收购没收购成的公司，九年后用另一种方式实现了绑定。

还有交付的压力。OpenAI合同要求2026到2028年每年部署250兆瓦的推理算力。Cerebras到2026年底的自有租赁产能可能只有约43兆瓦，缺口巨大。2027年贝尔AI园区的128兆瓦上线会改善局面，但圭亚那的100兆瓦项目已经多次延期。数据中心建设成本由OpenAI承担，Cerebras被允许支付高达200美元/千瓦/月——远超市场均价的130-140美元。但WSE-3对液冷的要求非标准化——每千瓦冷却液流量是英伟达参考设计的近3倍，普通液冷机房不能直接用。

设计芯片、造系统、写软件、卖推理、建数据中心，Cerebras同时在做五件事。而2028年前要交付的服务器总量，比这家公司成立以来所有出货量之和还要多出一个数量级。

英伟达花200亿美元把推理速度买进了自己的体系。OpenAI则花了超过200亿美元把速度买到了英伟达体系之外。同一个底层判断的两个方向：过了某个智能阈值，开发者宁愿要更快的Token，也不要更聪明的Token，而且愿意为此支付六倍的价钱。

Cerebras的600亿市值，行业押的是九个字：蒸馏会比摩尔定律跑得更快。

摩尔定律已经在SRAM上停转了：5nm到3nm，存储密度零增长，44GB就是天花板。但蒸馏没有停。1200亿参数的模型今天还不够聪明，可能一年之内就追上今天万亿参数前沿模型的水平。如果蒸馏够快，44GB的孤岛就是推理时代最有价值的基础设施——模型越蒸越小，芯片越跑越快，速度本身成为产品。如果蒸馏不够快，44GB和150GB/s就是物理定律画下的永久边界，速度再快也困在一颗装不下主流工作负载的芯片上。

这是整个AI芯片行业在2026年做出的最大一笔对赌。答案可能一年之内就会揭晓。

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定