从商汤科技孵化而来的曦望科技押注推理专用GPU，通过架构优化降低Token成本，抓住AI推理爆发机遇，为国产芯片开辟新赛道。 ## 1. AI推理需求爆发催生市场空白大模型+AI智能体的发展大幅推高Token消耗量，2026年推理将消耗全球三分之二AI算力，GPT-4四个月推理成本即可覆盖一次训练成本。当前市场多为训推一体GPU或适配性差的专用ASIC芯片，缺乏真正适配推理、兼容主流生态的通用GPU。 ## 2. 专为推理优化的芯片设计路径曦望砍掉训练模块，将所有资源投向推理加速，采用LPDDR内存方案实现最高600GB国产最大显存，兼容不同规格可覆盖多场景无需重新设计；搭配PCIe Gen6通信通道，优化KV Cache分层存储，综合算力利用率稳定在95%，解决传统GPU算力空转问题。对外做到99%以上CUDA生态兼容，对内软硬同源榨干芯片性能，还推出256颗芯片互连的超节点集群支撑大模型高并发推理。 ## 3. 适配四类客户的差异化Token生意当前推理客户分为智算中心（追求单位成本Token产出）、互联网AI公司（追求低延迟高吞吐）、大型企业（注重数据安全长上下文）、垂直行业（需求开箱即用解决方案）四类，均已进入“算账跑推理”阶段，交易逻辑从卖算力转为卖算力结果。曦望认为Token价格整体会持续下降，成本下降会进一步放大总需求；当前市场分化为通用低价值Token价格战、高价值Token供不应求涨价，两种状态将长期共存。 ## 4. 国产推理芯片的差异化竞争格局推理赛道分为海外巨头（价格高供应不确定）、训推一体GPU、专用ASIC三类，曦望选择做推理原生通用GPU，走大显存+软硬一体路线。推理生态核心是“兼容”而非训练生态的“锁定”，曦望通过高兼容降低客户迁移成本，靠软件调度榨出更多有效Token，形成差异化壁垒。中国推理市场不需要同质化玩家，但需要不同方向的不可替代选手，国产芯片与国产大模型天然契合，推理赛道不同于训练的英伟达垄断格局，国产厂商有充足竞争空间。 ## 5. Token产业链话语权与生态布局 Token产业链的话语权不固定在某一层，属于“能把单位成本做到最低、又离需求最近”的角色：仅做单层业务容易沦为管道，能整合芯片、系统、软件输出稳定低成本Token能力的参与者更有优势。曦望自研推理芯片和配套软件保障差异化，开放合作模型适配、系统工程、行业落地环节，开放芯片IP支持伙伴定制，通过紧密咬合打造繁荣国产生态。当前AI领域被低估的机会包括大容量低成本推理内存、数据中心能效优化、实体域高质量数据三个方向。

原创2026-06-26 07:22

把Token价格打下来，中国芯片公司换了种活法

陈伊凡_YF

速览

出品｜虎嗅科技组

作者｜陈伊凡

编辑｜苗正卿

头图｜AI生成

这是虎嗅WAIC“追踪Token商业新范式”系列文章第05期。

2026年，红果短剧平台上出了个新物种：三五个人的小团队，靠 AI 工具批量造短剧。产量翻倍、成本骤降。

这件事当然有着某种颠覆的意味，一个叫做OPC（一人公司）的组织形式率先在短剧行业诞生。但在上海浦东的曦望Sunrise办公室，联席CEO王湛看到的，是一个叫做“Token 消耗量”的数字。

Token，简单说，就是 AI 干活的计量单位。你让 AI 写一段话、画一张图、生成一集短剧，它都在消耗 Token。Token 越多，烧的算力越多，花的钱也越多。曦望Sunrise（以下简称：曦望）卖的东西，恰好就是让这笔账变便宜的芯片。

“我们预判了推理算力会大幅度增长，但没料到增速如此之快。”王湛说。

曦望联席CEO王湛图片由曦望Sunrise提供

如果要找一家公司来讲 Token 的故事，曦望大概是最合适的那个。Token 是推理需求爆发之后才火的概念，而曦望做的，恰好就是Token工厂里最核心的推理 GPU。

一同参与此次话题讨论的，还有曦望的CTO高洋。和王湛相比，高洋是一个纯粹的技术人，甚至有些“社恐”，他是一个文字表达逻辑大于话语表达的人。王湛则不一样，他更像是一个企业家，具备商业嗅觉，对市场变化反应极快。

曦望CTO高洋图片由曦望Sunrise提供

王湛说，这也是曦望团队的特点，集群作战，各有所长。

从会议室的落地窗望出去，黄浦江缓缓流过。对岸是徐汇西岸的东西双塔，中国 AI 公司密度最高的地方。几站地铁外是张江，芯片企业密密匝匝。曦望卡在这两个产业的交汇点。

它从一家 AI 公司——商汤科技孵化而来，基因里天然带着“软件优先”的直觉：先看大模型和AI软件往哪走，再据此定义硬件，让硬件设计服从软件的走向。这种视角，让曦望从诞生的第一天起就盯上了推理市场。

解释一下“推理”。AI 的工作分两步：训练是造出一个聪明的大脑，推理是让这个大脑干活。过去几年，钱几乎都砸在训练上，因为大脑还不够聪明，现在大脑够用了，干活的需求就爆发了。

一组数据描绘出了这场变革的轮廓。德勤预测，2026年推理将吃掉全球 AI 算力的三分之二，而三年前推理市场还几乎不存在。OpenAI 每天光给 ChatGPT 跑推理就烧掉70多万美元，一年账单超过2.5亿。而 GPT-4训练一次的成本？四个月的推理费就能覆盖。

另一个更有值得关注的，是中国的国产芯片和生态在这一轮国产大模型的推理爆发中的机遇正在被放大。

王湛说了一句话，让人印象深刻，中国的推理芯片是跟着中国大模型整体发展一起成长的，是整个中国AI生态里重要的一环。国内的AI芯片和中国整套AI生态的契合度更高，这是差异化的特点。

这扭转了整个“国产替代”的叙事逻辑，从原本的倒逼和追赶，转向了一种换道并跑。

事实上，到 2026 年初，中国大模型已经在全球拿到了某种定价权。同样一份 Token，中国模型的价格只有国外同行的六分之一到十分之一。

在我们交流后的一周，大模型公司智谱，港股上市不到半年，市值从528亿港元，上涨至万亿港元，涨幅将近20倍。其背后正是“国产模型配国芯”的叙事，据了解，智谱的GLM-5.2上线首日，就完成了与国产算力平台的全面适配。

王湛看来，国产算力和芯片的解决方案已经不单是“国产替代”那么简单，而是一个更划算的选择。

我曾和不少欧洲、中东和硅谷的AI公司交流，越来越多的AI应用公司和海外开发者选择用中国的开源模型，图的就是便宜和安全，“你很难想象，DeepSeek正在成为这些硅谷这些AI公司的选择”。一位欧洲科技公司的CEO告诉我。另外，在中东、欧洲，中国的服务器和芯片正在这些地区进行售卖，这也意味着中国的模型和芯片厂商，正在突破“国产追赶”，进入全球市场的竞争。

我们这次聊天，主要想搞清楚几件事：一家 AI 基因的公司，为什么选择做推理专用 GPU？推理芯片的生意，究竟怎么跑通？谁在买单，钱又从哪省出来？曦望到底怎么做Token这门生意？以及更重要的，在推理这个赛道上，国产芯片和中国方案，在全球到底有多大竞争力？

当“反共识”变成“共识”

三年前如果有人说要做一家推理专用的GPU公司，大概率会被当成疯子。

那时候AI的重心全在训练。2022年前后，深度学习还在“造模型”阶段，行业的兴奋点是怎么把模型训得更大、更聪明。如果你翻看三年前AI芯片公司的宣传，云端训练芯片是他们的主战场和拉高估值的锚点。彼时的模型参数量才百万到千万级别，跑一次推理的计算量微乎其微。

为它专门做一款芯片？简直是“高射炮打蚊子”。

转折发生在大模型出现之后。

这里要解释一个关键机制。大模型生成文字，是一个字一个字往外蹦的。每蹦一个字，它都要回头看一遍前面所有说过的话，确认上下文没丢。这些“前文记忆”全都压在显存里。对话越长，记忆越大。一段百万 Token 的上下文，光存这些记忆就要吃掉上百 GB 显存。

而真正把推理需求推过临界点的，是 AI 智能体（Agent）。和单轮问答不同，一个 Agent 任务往往要自己规划、检索、调用工具、再反复自我修正。业内的测算是，完成一个智能体任务消耗的 Token，是一次普通对话的几十倍；一些后台常驻的监控类 Agent，更是 7×24 不停地烧 Token。模型越能干，推理思考越完备，单位任务烧掉的 Token 就会越多。

所以训练和推理，瓶颈完全不同。训练的要义是Scaling Law的暴力美学，推理的关键，则卡在显存容量和读取速度上。模型的上下文窗口从几千 Token 涨到几十万、上百万 Token，再叠加 Agent 的多步调用，这个矛盾只会越来越尖锐。

再加上 DeepSeek 这类开源模型让更多企业可以自己部署大模型，推理侧的需求真正炸开了。

一面是推理需求的爆炸，一面却出现了一个市场空白。王湛和曦望团队调研下来发现，市面上想买推理芯片的公司，能选的要么是以训练为主的“训推一体”GPU（推理只是附带功能），要么是专用芯片 ASIC（效率高但适配性差，换个模型就很麻烦）。没有人做一款真正为推理而生、又能兼容主流开发生态的通用 GPU。

2024年年底之前，行业主流还是“训推一体、训练为王”，曦望做了一个反共识的决定：砍掉所有训练模块，把全部资源押注推理，只做推理GPU。

市面上还有另一种选择：ASIC，专用芯片。它为某个特定模型量身定做，效率极高。也是大模型之下的受益者。曦望为什么不走这条路，偏要用通用架构做推理？我试图用几种行业里流行的解决方案向他们提出疑问。

曦望CTO 高洋的回答，很干净形象：专用芯片虽然能在单一模型上做到极致效率，但这相当于把模型“写死”在芯片上，尽管效率很高，但只能适配固定模型，无法升级调整，另一面，AI模型架构的演进速度远超硬件周期，尤其在 Agent 时代，模型和工作流几乎月月在变，通用芯片架构，能够保证各类客户的需求，适配不同的Agent，本质上是在“今天最佳”和“明天可能”之间做权衡。

这很像是单项选手和全能型选手的差异，曦望选择做后者。

王湛的视角更偏市场。他算了一笔时间账：一颗芯片从研发到流片落地，最少18个月，过去甚至要两年以上。如果芯片兼容性不够好，等你做完的时候，内置适配的模型已经落后了。

一款面向推理的GPU的设计取舍

为了让文章更佳通俗易懂，过去我们很少花大篇幅介绍一家公司的产品，因为容易流于技术，但想把曦望的GPU如何省Token这件事理清，此次不妨说一说，曦望的启望S3芯片的设计逻辑，你能够从这种设计逻辑中，看到一家公司，如何绞尽脑汁，把推理的成本压缩，让单位Token发挥更大的价值。

在整个Token生产环节中，究竟哪个环节造成的Token损耗最高？

高洋把这件事拆解得很详细，Token怎么生产出来的？整个过程可以类比为一条流水线：输入、生产、交付。

首先是输入，叫做Prefill预填充，这一步具体而言就是，用户的所有历史对话和上下文一次性灌进去。对话越长，灌进去的东西越多，需要的存储空间越大。这一步吃的是算力和显存容量。

接着就是生产环节，也叫做Decode解码阶段： AI 开始一个字一个字地生成回答，瓶颈在带宽、通信时延和显存容量。如果芯片读数据太慢，或者多块芯片之间传话太慢，任务就开始排队。更麻烦的是，AI 在生成过程中需要不断翻阅“前文记忆”（技术上叫 KV Cache），多个用户同时提问时，这些记忆会争抢显存空间，导致无效读写、算力空转。多层级的数据传输再一拖，整体效率就塌了。

然后是交付：长文本输出需要分片传输，稍有不慎就会卡顿、端到端延迟升高。

从头到尾看下来，算力不是核心瓶颈。真正卡脖子的是显存容量、读取带宽和通信延迟。

这个判断，成了曦望的GPU所有设计选择的出发点。以启望S3为例，它做了两个在国产 GPU 中少见的选择：其一是内存方案，它没用训练芯片惯用的 HBM，而是选了消费电子使用的低功耗内存（LPDDR）——因为推理需要的是大容量的内存，S3的显存容量最高可达600GB。这也是国内显存容量最大的GPU。

又因为 LPDDR 有不同规格（LPDDR6和 LPDDR5X 兼容），启望S3可以灵活推出不同显存版本，覆盖从边缘设备到云端服务器的各种场景，不用重新设计芯片。一套架构，多种配置。

其二是通信方案，芯片和外界交换数据需要通道。启望S3用了最新一代的通道标准（PCIe Gen6），相当于把双车道扩成四车道，数据进出速度翻倍。同时，AI翻阅“前文记忆”的方式也做了分层，最常用的放手边，偶尔用的放隔壁，很少用的放仓库。多个用户同时提问，不再互相挤占、互相拖慢。

去掉训练模块之后，省出来的晶体管和功耗全部集中投向推理加速。还是以启望S3为例，在实际场景下，综合算力利用率稳定在95%左右。这解决了传统 GPU 一个老毛病：标称算力很高，实际跑起来用不满，大量算力在空转。高洋做了一个比喻，这就像一个100人的工厂，只有30个人在干活，其余70个在等料。启望S3做到了95%的利用率：100个人里95个都在干活，几乎没有浪费。

不过，一颗芯片再强，也扛不住一座 Token 工厂的体量。尤其到了 Agent 时代，长上下文、高并发，一个任务动辄要成百上千颗芯片协同来算。所以在单颗 S3 之外，曦望还把芯片组装成了更大的“算力单元”——超节点：用高速互连，在一个互连域里把最多 256 颗芯片连成一体，对外像一颗“超级芯片”；这样的集群能扛住万亿参数大模型的高并发推理。

单芯片解决“每颗卡多省 Token”，集群解决一座工厂稳定产 Token，两件事，缺一不可。

兼容性，则是另一半。S3对 CUDA 生态兼容性做到了99%以上，已有的 AI Agent 和模型可以直接跑通，不用改代码。就像换了一台新电脑，但你原来装的所有软件、存的所有文件，插上就能用，不用重新安装、重新配置。曦望走的是“软硬同源”，硬件和软件出自同一个团队、面向同一个目标设计。软件把同一颗芯片榨出更多有效 Token。

推理GPU的Token生意

王湛对商业模式想得很清楚。八个字：创造价值，获得收入。

对曦望来说，帮客户把 Token 成本降下来，让 AI Agent 跑得更好，这本身就是价值。客户为产品付费，付的钱覆盖成本、产生利润，利润再投入研发和招人，完成闭环。

但“帮客户省钱”这件事，具体怎么做？

曦望把当前的推理算力客户归为四类，每类客户盯的Token指标完全不同。

第一类是智算中心。他们不怕“慢”，怕“闲”。传统架构下GPU闲置率常超过40%，这些客户盯的是每一元钱出多少Token、每瓦特出多少Token，目标是让每张卡同时跑更多任务，7×24不停机。

第二类是互联网和AI公司，他们不怕贵，怕“卡”。高并发、波峰波谷明显，这类客户愿意为低延迟、高吞吐支付溢价。

第三类是大型央国企和民企，用AI改造核心业务流程的企业。他们对数据安全有严格要求，数据一个字节都不能出机房，这类客户的工作负载稳定可预测，上下文通常很长。

第四类是垂直行业，制造、金融、医疗、自动驾驶。他们缺AI专家，要的是开箱即用，买的是解决方案不是算力卡。

四类客户面貌迥异，但有一个共同处境：都在从“一次性烧钱训练”走向“天天算账跑推理”。推理成本，成了所有人的命门。

更有趣的是，Token服务的市场，正在出现明显分化，一部分是行业头部玩家，他们靠技术提供高价值的服务，享受技术红利，他们的毛利率可以做到60%以上；另一部分则是大量同质化的服务，毛利率大概20%以下。

针对这样的分化，王湛发现，Token的服务需要差异化，这背后其实是算力需求精细化的结果，作为算力提供方，需要让不同质量的算力服务找到真正需要它的场景。

例如高价值任务，编程、医疗、法律分析，用户追求高准确率和低延迟，对价格不敏感，这类服务的毛利率很好。低价值任务例如聊天、摘要、创意草稿，错误容忍度高，用户极度价格敏感，毛利不高。

同一个“推理市场”，其实是两门截然不同的生意。

王湛说，过去客户问的是：你多少 TFLOPS？多大显存？现在问的是：我这个业务，你能不能跑得起、跑得便宜、跑得稳？“以前卖算力，现在变成卖算力的结果。”王湛说。

他对终局的判断是：国内大模型很可能成为公共基础设施，就像手机流量一样，Token 价格整体还是会持续变便宜。成本下降本身，就是需求爆炸的燃料。 Token 越便宜，原来跑不起的应用就都跑起来了，总需求反被放大。

“对我们做芯片的来说，这其实是最好的局面：我们把成本打下去，市场自己会变大。我们让客户赚钱，客户就会更多的买，也让我们赚钱。”王湛说。

这是曦望想扮演的角色：离台前的聚光灯很远，却离每一个用Token创业的人很近。

以下为虎嗅访谈精选：

虎嗅：推理市场很大，但竞争也非常激烈，在曦望所在的推理算力赛道的竞争格局如何？

王湛：竞争确实激烈，但我想先把“激烈”这个词拆开——推理算力这条赛道，其实不是一锅乱炖，它分几个阵营。

大致是三类玩家：第一类是海外巨头。问题是贵，在国内还叠加了供应与自主可控的不确定性。

第二类，是训推一体GPU，已经有很多家上市的公司。

第三类是专用芯片 ASIC。对单一模型效率极高，但太“死”，模型一换就麻烦，更适合固定场景。

曦望选的是另一个位置：做一款真正为推理而生、又能兼容主流生态的通用 GPU：从架构定义起就为推理取舍，走容量优先的大显存路线，再加上软硬一体。

虎嗅：训练环节生态很重要，比如英伟达的CUDA，那推理这一块生态的重要性有多大？

王湛：生态在推理一样重要，但"重要"的含义，和训练不是一回事。训练那套生态CUDA 是典型。它的厉害之处是“进得来、出不去”：你在上面写代码、调模型、攒了一堆库和工具，社区也都在那儿，时间一长，迁移成本高到你根本不想走。

但推理的逻辑反过来了。推理阶段，客户手里已经有训好的模型了——他不是要重新开发，他就想把这个模型跑得更便宜、更稳。这时候他最在意的，不是“你的生态有多深”，而是“我搬过来要改多少东西”。所以推理这一层，生态的关键词从"锁定"变成了"兼容"：你能不能让客户的既有模型、既有应用，几乎零改动就迁过来。谁迁移成本最低，谁就赢。

这是个很关键的差别——训练的护城河，不会自动延伸到推理。 CUDA 在训练上再强，到了推理，客户要的是"跑得起、跑得便宜"，而不是"再被锁一次"。这恰恰是给我们这样的挑战者留的门：我们不去重造一个 CUDA，而是做到高度兼容主流生态，让客户搬家不疼。

但还有更深、也最容易被低估的一层：推理的“生态”，重点不在开发框架，而在优化和运行时那一层。因为推理拼的是单位 Token 成本，而成本是靠软硬协同一点点榨出来的——怎么调度、怎么管 KV-Cache、怎么量化、怎么把多卡之间的通信压下去。这套系统软件，才是推理时代真正的生态壁垒。它不是“把开发者锁住”，而是“让同一颗芯片产出更多有效 Token”。

所以我们的打法是两条腿：对外，高兼容，让客户零改动迁入；对内，软硬同源，把硬件的每一分性能用软件榨干净。

虎嗅：半导体是一个“二八定律”非常明显的行业，“老大吃肉、老二喝汤”，以美国为例，英伟达一家独大，其他GPU公司几乎没有机会，中国市场是否还需要这么多家GPU公司？

王湛：这个问题问得好，但我觉得它把两件事混在了一起：一是“市场会不会向头部集中”，二是“中国需不需要这么多家”。第一件我同意，第二件我有不同看法。

集中，一定会发生，但它淘汰的是“同质化”，不是“数量”。半导体确实是赢家通吃，可“通吃”是有边界的，是在同一个细分、同一代技术里通吃。今天真正的问题，不是GPU公司太多，而是很多家在做同一件事，这种同质化，确实只能活下来一两家，该淘汰的会淘汰，这是健康的。但“需不需要这么多家”，得看它们是不是在做不一样的事。

第二，英伟达的护城河，是在“训练”这个战场上最深的，生态、先发、最强的通用算力。但推理是另一个游戏：它更看重单位成本、显存容量、能效，更碎片化、更贴场景。你看国外，推理这一层其实也是百花齐放，各种专用芯片、云厂商的自研芯片都在长出来。所以"老大吃肉、其他没机会"，是训练时代的一张快照，不是推理时代的结局。

第三，中国市场的逻辑，还有国产芯片和国产模型推理之间天然的高契合度。回到你的问题：中国不需要“这么多”做一样事情的 GPU 公司，但需要几家在不同方向上做到不可替代的。我们的选择，是在推理这条正在被重画的新赛道上，找一个别人替代不了的位置。

虎嗅：谈谈市场和商业模式，你观察到的需求爆发的节点是什么时候？

王湛：已经开始爆发了。之前训练是一锤子买卖，烧一笔大的；现在推理是天天发生的运营开支，跟着用户量、调用量一直累积。以前卖算力，现在卖的是算力的结果。客户很愿意为“每一个 Token 跑得多便宜、多稳”付钱。所以在我看来，需求爆发真正的标志，是大家开始为 Token 算账了。

虎嗅：当Token需求爆发后，大家发现Token成本不断下降但价格却不断上升，涨价会持续到什么时候？

王湛：这恰恰说明一件事：现在不是成本在定价，是供需在定价。

成本确实在快速下行，靠芯片效率和架构改进，行业每年能把单位 Token 成本压掉六七成。但价格还往上走，是因为需求涨得比成本降得更快：尤其 Agent 起来之后，一个任务烧的 Token 是过去的几十倍，需求是指数级的；而算力、电力、数据中心这些供给端是线性的、还得排队建。供给追不上需求的时候，定价权就从成本转到了供应手里。

而且得把两个市场分开看。便宜的通用 Token，聊天、摘要这种——价格其实一直在掉，在打价格战；真正在涨的，是高价值、高门槛的 Token——Agent、编程、医疗、低延迟这类，需求旺、供给紧、还有差异化，价格自然撑得住、甚至往上走。所以“成本降、价格涨”，更准确的说法是“通用的在降、高价值的在涨”。

至于涨到什么时候，我的看法是，会一直持续到供给追上需求那一天，而这一天不会很快来。两个原因：一是 Agent 才刚开始，Token 需求曲线还在最陡的那一段；二是产能建设没那么快，晶圆、内存和电这种硬供给，短期补不上。

还有一层更反直觉的：成本下降本身，就是需求爆炸的燃料。 Token 越便宜，原来跑不起的应用就都跑起来了，总需求反被放大，所以“单位价格在降"和"总盘子、高价值那块价格在涨"，会长期同时存在。对我们做芯片的来说，这其实是最好的局面：你把成本打下去，市场自己会变大；我们让客户赚钱，客户就会更多的买，也让我们赚钱。

虎嗅：刚刚聊了关于Token商业模式的问题，如果未来Token真的变成类似流量、资费的存在，整个Token产业链上谁的话语权可能是最大的，是芯片厂商、模型厂商还是系统厂商？

王湛：我先泼盆冷水，别指望话语权会稳稳落在某一层。就像流量——你看运营商，手里握着网络和牌照，最后却成了“管道”，价值被上面的应用（微信、抖音这些）拿走了；而设备商靠技术壁垒，话语权一直都在。所以谁说了算，不取决于你在哪一层，而取决于你在那一层是不是稀缺、能不能被替代。放到 Token 这条链上，我的判断是：中间的通用模型层，话语权只在最头部玩家手上。开源模型一出来、价格战一打，大部分模型就成了价格的接受者，只有最前沿那几家能靠能力定价。

还有话语权的，会集中在两端：一端是定义单位成本的那一层——算力生产端，谁能把每一个 Token、每一瓦电的成本做到最低，谁就握住了整条链的成本底盘，因为 Token 一旦变成水电煤，比的就是成本和效率；另一端是离需求最近、掌握运营规模的那一层——云、MaaS、运营商，谁掌握客户和流量，谁就有定价权。

但有个前提：纯卖某一层，最容易被做成管道。你只卖单颗芯片，就是个元器件供应商；只卖通用模型，就被价格战碾。所以要把芯片、系统、软件整合成“能稳定、低成本产高价值 Token 的能力”。说白了，话语权属于“能把单位成本做到最低、又离需求最近”的那个角色，不属于任何一个孤立的层。

虎嗅：说到“国产模型配国芯”，你们如何布局这方面的生态？哪些选择合作？哪些选择曦望自己做？

王湛：我们这事想得比较清楚，就定了一条线：决定推理性价比、且别人替代不了的，自己做；专业分工更高效、能让生态更繁荣的，交给伙伴。

先说自己做的，核心就两块——推理 GPU 芯片，和它上面那一整套软件。这两件我们坚持软硬同源、出自同一个团队。因为推理的性价比不来自某个单点最强，而来自软硬件的协同：架构怎么取舍、算子怎么调度、显存怎么管理，必须芯片和软件一起设计才榨得出来。这层一旦外包，差异化就没了。所以从芯片架构，到基础软件栈、推理平台、再到兼容主流开发生态的编程模型，我们自己做。

合作的部分，主要是三块：

一是模型。我们不做大模型——这点很重要。我们要做的，是让国产大模型在国产芯片上跑得又快又省。所以我们跟主流国产模型、开源模型做深度适配。“配”这个字的真义，就是把国产模型和国产芯片之间的适配损耗降到最低，而不是各做各的、硬凑在一起。

二是系统和工程。一座 Token 工厂不只有芯片，还有液冷、供电、服务器、集群。这些我们跟产业链伙伴一起做超节点和整柜方案，各出所长。

三是行业落地。每个行业的 know-how 我们不可能都懂，所以在金融、能源、制造这些场景，我们跟行业伙伴共建软硬一体的解决方案——我们出算力底座和工具，他们出场景理解。

最上面还有一层是开放：我们把芯片的 IP 开放出来，允许伙伴在我们的技术之上定制他们自己的专属芯片。这等于把生态的口子打开，让它长出更多形态，而不是我们一家通吃。

说到底，国产生态能不能成，关键不在于谁能一家全包，而在于这条链上每一环——模型、芯片、系统、应用——之间的"咬合"够不够紧。

虎嗅：现在AI领域还有哪些被低估、未来会被放大的机会，类似之前的光模块？

王湛：第一是存储。大家习惯把芯片的价值等同于算力，但其实存储已经是推理系统里成本占比最高的一块。那种大容量、低成本、低功耗的内存路线——被严重低估了。内存之于推理，差不多就是光模块之于训练集群的位置。

第二是电和能效。黄仁勋说未来的数据中心是“Token 工厂”，这句话还有半句没说完：它是一座“电变 Token 的工厂”，真正的天花板是电。所以散热、液冷、供电，以及"每一瓦能产出多少 Token"的能效，可以有新的变化。

第三是数据。AI发展的三要素是算法、算力、数据，现在算法层面各家大模型都在投入研发，算力层面有各类芯片公司在布局，但是数据领域还没有出现头部企业。

现在世界模型的概念越来越受重视，AI需要从只和网络世界互动转向和实体世界互动，这就需要大量之前网络上没有的高质量数据，就像自动驾驶需要大量车辆采集的实景训练数据一样，这类高质量训练数据的需求会越来越大，相关市场有很大的成长空间，未来很可能会出现相关的头部企业。

AI 行业开始认真算账了。不是只看模型能力，而是看 AI 是否真正进入业务、产生结果、跑出回报。

这也是虎嗅想追问的：钱烧哪了？干成啥了？赚还是亏了？能复用吗？

围绕这四问，我们将深度对话AI产业链条上的重要公司，沉淀AI账本样本库；还将在7月WAIC期间推出系列直播、闭门会，与企业关键决策者共探AI生意。

详情请戳，一起见证AI时代商业落地的真实变化。

文章标题：把Token价格打下来，中国芯片公司换了种活法

文章链接：https://www.huxiu.com/article/4870255.html

阅读原文：把Token价格打下来，中国芯片公司换了种活法_虎嗅网

AI原生产品日报频道: 前沿科技

陈伊凡_YF

见证、记录

虎嗅团队

已在虎嗅发表 109 篇文章

本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定