本文聚焦出海AI团队的推理成本痛点,结合Akamai专家观点,给出了从选卡到架构优化的降本提效方案。 ## 1 出海AI推理成本痛点凸显,推理投入成为核心重心 当前出海AI团队已从早期模型打磨试水转向规模化落地盈利,场景已从最初的文生图扩展到情感陪伴、智能客服、实时交互等多个领域。其中面向C端的实时交互类应用对推理成本和延迟尤为敏感,已有出海AI公司更换推理基础设施后砍掉约六成整体AI与IT成本,实现扭亏为盈。 ## 2 选对推理GPU,避免性能浪费或适配不足 不同档位GPU适配不同推理场景,H100更适合训练,多数推理场景用H100属于性能浪费。 消费级游戏卡仅适合创业初期验证产品,用户量上涨后会遇到显存、可靠性、扩展性瓶颈,并非长期方案;显存48GB以下的小卡跑70B等大模型需要拆分成多卡运行,通信开销陡增反而不划算,中端专业卡如RTX PRO 6000 Blackwell更适配多数推理需求。 ## 3 合理部署推理,平衡延迟与成本 首个token响应超过2秒就会导致C端对话类AI用户流失,实时语音等场景对延迟要求更高,仅数百毫秒差异就能被用户感知。 除了部署位置贴近用户外,网络路径质量也直接影响延迟,边缘推理更适合对响应速度、跨区域体验、流量成本、数据合规敏感的场景,大模型多卡推理仍更适合集中部署在高算力集群。 ## 4 提前适配未来需求,补全规模化运营能力 准备出海的AI团队要搭建适配Agent架构的基础设施,需满足三点:多云友好、选择无技术锁定易迁移的技术栈、提前预留扩展性并做好安全准备。 中国出海AI团队不缺技术能力,最需要补全的是规模化运营能力,即海外安全合规、全球用户扩展能力、不同市场的产品体验适配能力。
每百万Token 成本砍六成,出海AI 团队开始重算推理这笔账
2026-06-11 10:06

每百万Token 成本砍六成,出海AI 团队开始重算推理这笔账

本文来自微信公众号: 硅星人Pro ,作者:周一笑,原文标题:《每百万 Token 成本砍六成,出海 AI 团队开始重算推理这笔账》


一家亚太的AI情感陪伴出海公司就撞上过这个问题。它不是没人用,而是用户涨得越快,亏得越多。语音交互、多模态生成、持续在线的陪伴关系,把每一次调用都变成一笔细账,模型要跑,数据要传,结果要送回海外用户手里。后来它换了一套推理基础设施,把整体AI与IT成本砍掉约六成,项目才从亏损转向盈利。


我们带着这笔账,找到了李文涛。他是Akamai亚太区云计算架构师总监,这些年经手过大量出海团队的算力架构。在他看来,出海的AI团队这两年正在发生一个明显的转变。三年前,多数团队还在试水,多是拿AI给主营产品加点增值功能,在自己的模型上做些调优和打磨,服务也没真正上量。今年开始,重心从打磨模型,转向把正式服务发出去、把钱投到推理上。越来越多团队跑通了产品,接下来要做的是快速铺向全球、尽快盈利。


在他接触的出海团队里,AI的用法也越来越广,从早期做营销、广告和游戏素材的文生图,扩展到文生视频,再到情感陪伴、智能客服、会议转写、实时翻译,以及电商个性化、库存预测、用户行为分析等场景。其中面向消费者的实时交互类应用,比如陪伴和对话,对成本和延迟尤其敏感。


接下来的问题就很具体了。一个手里已经有模型、可能正在用H100或者消费级卡的团队,到底该怎么把这笔账算清楚。我们和李文涛聊了三件事,选哪张卡,怎么算账,把推理放在哪里跑。


当年出海团队选CDN,是在为网页、视频和下载体验算账;现在选推理跑在哪里,是在为每一次回答、每一帧视频、每一段语音算账。区别只是,这一次账单来得更快,也更难藏在后台。


以下为实录,经不改变原意的编辑。


硅星人:很多团队默认,跑推理就得上H100,真是这样吗?


李文涛:不一定。英伟达的数据中心卡分好几档,从中高端的H100,到中端的RTX PRO 6000 Blackwell,再到更老更小的型号,每张卡擅长的工作不一样。英伟达对这些卡有定位,有些更适合训练,有些更适合推理。训练吃的是多卡互联和内存带宽,推理更看重单卡能不能把模型装下、把并发顶住,所以对很多推理场景来说,H100是杀鸡用牛刀。


硅星人:能举个例子吗,同样是AI,不同场景怎么配不同的卡?



硅星人:那为了省钱,直接上消费级游戏卡,或者显存小一些的便宜卡,行不行?


李文涛:国内确实有不少客户用比较低端、甚至消费级的卡跑推理,比如5090这种PC游戏卡,这里面有几个问题。一个是算力,创业初期拿它跑通产品没问题,但用户量一上来、模型一迭代,很快会撞到显存容量和带宽的瓶颈。再一个是可靠性,消费级卡在这块设计上有局限,比如没有ECC显存纠错机制,KV缓存里一旦出错,就可能导致服务中断。还有扩展性,它不支持NVLink,连卡间GPUDirect P2P直通也不支持,一旦要多卡协作,性能会断崖式下跌。所以从算力到可靠性再到扩展性,消费级卡都不是长久之计。另外有些团队用显存48GB甚至更小的卡,比RTX PRO 6000小一半左右,跑小模型没问题,真要跑一个70B,单卡装不下就得拆成两张,卡和卡之间的通信复杂度和开销一上来,反而不划算。


硅星人:选完卡,接下来是算账。推理的成本,除了GPU每小时多少钱,还有哪些容易被忽略的?


硅星人:价格上,Akamai在市场里大概是什么位置?


硅星人:能不能讲一个真实的案例,从选卡、部署到成本,账是怎么一步步算下来的?


硅星人:除了选卡和选云,模型这边还有压成本的空间吗?


硅星人:延迟对出海的AI产品有多重要?位置对它的影响又有多大?


李文涛:延迟对出海产品比较重要的,毕竟中国出海的很多是to C、实时交互类的产品。对一个大模型来说,首个token如果超过两秒,用户就会觉得AI卡住了,可能会流失,这跟以前网页加载太慢、用户放弃率高是一回事。对话类大概是两秒这个量级,实时语音、在线客服会更苛刻,几百毫秒用户就能感觉到延迟大了。前面说的DevSisters,实时多人在线的游戏互动,也是要优化延迟的场景。这些都还是to C的场景,再往后像自动驾驶、机器人这种要在物理世界里实时反应的,对延迟和可靠性的要求只会更高。这里面其实是两件事,一是离用户近不近,二是网络路径好不好,后面这点常被忽略。


硅星人:除了选区域,还有别的办法降延迟、降成本吗?


当然,不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理,仍然更适合集中在少数高算力的集群里。边缘真正擅长的,是那些对响应速度、跨区域体验和流量成本和数据合规更敏感的推理服务。



硅星人:往前看6到12个月,一个准备出海的AI团队,在算力这件事上最该提前准备什么?


李文涛:这取决于业务形态,但要说通用的建议,现在AI的模型和技术迭代都非常快,越来越多企业在转向Agent式的架构,所以设计云架构时别只盯着当前的需求,要往更长远看,搭一个能适应Agent时代的平台。具体是三点。一是多云友好,前面说的跨云打通,就是在为这个做准备。二是技术栈的选择,是用大厂的私有技术栈,像Bedrock、Vertex AI这种,还是用开源加基础设施服务,搭一个没有技术锁定、容易迁移的技术栈,这个选择很重要。三是Agent时代会带来新的扩展性和安全需求,人和模型的交互如果是一个量级,Agent和Agent之间的交互可能是数百、数千甚至上万倍的量级,平台的扩展性、可管理性和安全,都要充分考虑。


硅星人:最后一个问题。对想出海的AI团队,最该补的能力是什么?


李文涛:最该补的是规模化的运营能力。具体来说,是海外的安全合规、面向全球用户的扩展性,以及产品体验在不同市场的适配。技术上中国团队并不缺,更需要专注的是把一个能跑通的产品,做成一套能在全球稳定、高扩展、安全和低成本运转的系统。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定