AI服务价格飙升,中小型开发者和普通用户因算力紧缺和token浪费面临使用成本激增,行业需优化技术以实现普惠。 ## 1. AI服务价格全面上涨 - 2026年4月,智谱、阿里云、腾讯云相继提价,AI产业从"流量获客"转向"算力紧缩"。 - 英伟达H100租赁价半年涨40%,英特尔/AMD服务器CPU售罄,成本沿产业链传导至终端用户。 ## 2. 智能体引爆算力需求 - 2026年3月日均token调用量达140万亿,较2024年初增长1000倍,OpenClaw等智能体成主要推手。 - Anthropic因用户月耗5000美元算力仅付200美元,切断第三方工具API接入,强制改用按量付费。 ## 3. Token浪费问题触目惊心 - 开发者测试显示:OpenClaw第10轮对话成本是第1轮的26倍,因"上下文无序膨胀"导致指数级消耗。 - GitHub上"Token Waste"问题季度增长5倍,2026年Q1超4000例,反映行业低效现状。 ## 4. 降本增效的三大路径 - **芯片扩容**:华为昇腾服务器涨价16-48万元,国产产能仍受限; - **技术优化**:KV Cache缓存技术可避免重复计算,OpenAI通过分层模型(GPT-5.4与Mini分工)提升效率; - **智能体约束**:"Harness"概念兴起,需优化工具调用、记忆管理等,减少无效token消耗。 ## 5. 行业面临残酷洗牌 - Cursor年收入20亿美元却亏损1.5亿,AI应用毛利率(25-60%)远低于传统SaaS(77%); - 专家警告:若无法解决浪费,2026年智能体普及将因算力不足挤出平民用户。
平民玩家,开始玩儿不起AI了
2026-04-20 19:19

平民玩家,开始玩儿不起AI了

本文来自微信公众号: 非凡油条 ,作者:豆腐乳儿


2026年4月12日,智谱Coding Plan(海外版)月付价格几乎翻倍。


第二天,阿里云宣布取消百炼平台基础套餐的续费入口。


其他厂商并没有在涨价上落后,4月9日,腾讯云AI算力全线上调5%。


这场涨价潮,代表着AI产业正从"流量获客"的互联网时代,迅速滑向"算力通货紧缩"的重工业时代。


之前为了吸引用户,大模型大打价格战。现在token使用量猛增,从大模型到云厂商,都看到了卖token能够跑通的盈利模式,也该提价收回此前的成本了。


在汹涌增长的token需求面前,算力供应极度吃紧,涨价就顺着产业链不断向下游传导,承受成本的终端就是中小型开发者和普通用户。


智能体撞开了算力闸门


我国日均token调用量,今年三月已经超过了140万亿,相比2024年初的1000亿增长了1000多倍,比起2025年底的100万亿,三个月内也增长了40%。


最近三个月的猛涨,主要得益于以OpenClaw为代表的智能体,让它们自动工作要消耗大量token,以至于有相当一批人体验了OpenClaw后,大呼token消耗太厉害,快没钱烧了,只好卸载了事。


token消耗量猛增,意味着算力大幅消耗,传导到上游就是AI芯片遭到哄抢。


根据SemiAnalysis,英伟达H100的一年期租赁合同价格从2025年10月的1.70美元/小时/GPU飙升至2026年3月的2.35美元,涨幅近40%。


上涨的可不只有GPU价格,就连AI服务器调度与推理核心的CPU也在被抢购,2026年3月下旬,英特尔与AMD相继通知客户上调处理器价格,这两家今年服务器CPU产能已基本售罄。


成本压力沿着"芯片-云厂商-模型厂商-应用厂商-企业客户"的链条层层下传。


Cursor是全球最大的独立AI代码生成平台,2026年2月年化收入突破20亿美元,看似风光,实则2025年亏损至少1.5亿美元。


其几乎所有收入都被用于调用Anthropic和OpenAI的模型,毛利率被压缩至令人窒息的水平。


传统SaaS软件公司毛利率中位数高达77%,现在AI大模型和应用卷死了传统软件公司,可AI应用的平均毛利率仅为25%至60%。


所以大模型只能涨价,把成本继续往下游传导,此前价格战给的福利要收回,这一风气也不是国内先开始的。


2026年4月初,全球领先的大模型厂商,已经估值数百亿美元的AI巨头Anthropic,突然切断订阅用户通过OpenClaw等第三方工具接入Claude API的许可。


官方解释直白赤裸,部分重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源。


一个OpenClaw代理运行一天,背后的算力成本在1000至5000美元之间,用户还是趁早别白嫖自家服务,该去切换至按用量付费的API模式,不然连Anthropic都顶不住。


token浪费触目惊心


大模型涨价,用户肉疼之余也在疑惑,这token就非得烧这么多吗?


今年3月,就有一位名为shelvenzhou的开发者在GitHub上进行了一项基准测试,记录自己使用OpenClaw处理日常工作的Token消耗轨迹。


第一轮对话成本0.0050美元,很是省钱。


第五轮飙升至0.0665美元,不大对劲。


第十轮达到0.13美元,是个人意识到了,烧的钱根本不是一点点增长,而是指数级爆炸。


像癌细胞一样,每一轮分裂都在加速吞噬算力资源。


为什么token消耗会随着对话次数增多而指数爆炸呢?


了解OpenClaw等智能体的工作原理,就能理解token消耗量指数增长,是因为“上下文的无序膨胀”。


随着对话轮次增长,历史文件、对话记录不断累积,智能体为了寻找相关信息,往往只能采取"宁可错杀一千"的策略,把所有文件都读一遍。


用户每次输入后,Agent甚至可能需要重新计算完整的对话记录和文件数据。这导致智能体成本指数级增长,正如shelvenzhou测试的那样,第10轮对话的成本已是第1轮的26倍。


聪明的你自然会想到,这么多消耗的token里有相当一部分是浪费掉了。


《财经》统计,今年一季度,GitHub上有关“Token Waste”(token浪费)的问题,数量冲到了超过4000多个,比起上个季度增长了快五倍。


☉数据来源:财经


天下苦token浪费久矣。


让人人都能用得起智能体


想要用token少花钱,一个办法是多提供芯片,把芯片成本降下来。


然而国产AI芯片产能仍然被卡脖子,3月底华为昇腾服务器系列也涨价了,910C(A3)1TB内存版本单台大概上涨16万至32万元,2TB版本涨幅在32万至48万元之间。


还有一个办法,就是优化智能体,让它不要再浪费那么多token了。


目前有个成熟做法是“KV Cache”(键值缓存)技术。


这项技术原理也简单,模型对已计算上下文的结果进行缓存,以免下次调用重复计算消耗token。


还有一个办法,就是做好模型分工,token用在刀刃上。


复杂规划用旗舰模型保证准确,简单的高频执行交给轻量模型即可。


OpenAI的Codex升级已经体现了这种分层逻辑:GPT-5.4负责规划、协调与最终判断,而GPT-5.4 Mini子智能体则并行处理代码库检索、大文件审阅等细粒度任务。


不管哪种方法,都说明目前的智能体仍然处于起步阶段,还很不成熟,就像一批天不怕地不怕的小马驹,虽然最终能跑到终点,但过程中会到处乱跑消耗体力。


所以最近harness在AI圈子里火了。


Harness原意是马具,放在这里就是指约束智能体,让它更省力地跑到终点,这涉及到给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流。


从这个意义上说,在智能体从"能跑"进化到"越跑越稳"的harness时代,能做的工作还有很多。谁能用更少的token完成同样的任务,谁就能在AI产业的残酷洗牌中存活。


token经济的正向循环不会自动形成,想要用户用得起,还是得减少浪费,让大家都玩起来。


否则,2026年智能体普及年的狂欢,将在算力不足,挤出普通用户的过程中落幕。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定