本文来自微信公众号: APPSO ,作者:发现明日产品的
Anthropic发布了史上最强的模型Claude Mythos。
也是史上最贵的。25/125美元每输入/输出百万Token,作为对比,Claude Sonnet 4.6的价格是3/15美元——贵了将近8倍。

而这还只是API价格。Mythos目前根本没有对普通用户开放,因为能力太强,Anthropic自己都没想好怎么给我们用。
最强,也最贵。这两件事放在一起,某种程度上已经预示了接下来的走向:模型越来越聪明,Token越来越值钱,我们跟AI说话的成本,也越来越高。
但眼下的问题还不用等到Mythos。就是普通的Agent,甚至是对话聊天,在各种Skill、记忆系统的加持下,发一句「你好」,都有可能用掉13%的月度Token额度。

Reddit讨论帖链接:https://www.reddit.com/r/Anthropic/comments/1s8wwra/13_usage_for_one_hello_is_insane_max20_plan/
AI是越来越聪明,但我们可能快要跟它「说不起话」了。怎么节省Token成了这段时间以来,社交媒体上热议的话题。
有人提出用文言文的方式和AI聊天,毕竟古人说话字斟句酌,没有半点废话;还有人想到在不同的模型之间快速切换,用聪明的Claude指定策略、Gemini进行深度研究、然后ChatGPT来完成枯燥的流程工作。
这种感觉很像回到了2000年还没有数据流量的时候,用手机短信和朋友聊天,0.1元/条,每条短信还有字数限制,超过字数会自动计算为两条短信,所以一定得事先组织好语言,把要讲的事情在一条短信内说清楚。
回到大模型,在对话框里每按一次发送,一边要担心上下文窗口有限,一边也在想这次又要花掉我多少Token。
当个山顶洞人,回到石器时代
以文言相与,观若用字更少,然其实果更省乎?
前段时间,有网友在X上发梗图讨论用文言文,是不是能减少Token的使用。毕竟文言文相比白话文,用的字更少,把我们的语言都压缩成「之乎者也」的表达,所消耗的token按理说也会更少。
评论区都在调侃,这是在用人脑的Token来弥补AI Token。

我们的大脑编译文言文不用花钱,消耗再多Token倒也无所谓;但真实的情况是,消耗了脑力,写出了像模像样的文言文,最后并没有减少Token的使用。
对于大语言模型来说,越常用的词占用的Token越少,它并不是按照文字的长短来定义数量,而是依据语义进行划分。
就像下面的例子,一开始使用文言文只有21个字符,但是Token数也是20,切换到白话文,字符数来到31个,Token数依然是21。

Token计算:https://platform.openai.com/tokenizer
更离谱的是,我们之前分享过的GPT-4o词元污染,输入一串8个字符的短语,在AI大模型眼里只占用了1个Token。而对于一些非常用字,例如「无恙」,ChatGPT会将其编码成3个token,因为「恙」会变成乱码。

文言文不行,又有开发者提出回到石器时代,用穴居人的方式和AI「对话」。
一个名叫caveman的项目这几天在GitHub上走红,和用文言文玩梗不同,这个项目实打实地做了一些测试,并给出了可以复现的benchmark。
在展示的多项基准任务里面,使用Cavemen项目之后,能节省约65%的Token,同时能保证输出内容的100%准确。

测试结果显示,在标准软件工程任务上,平均压缩率达到65%,而且推理令牌不受影响,只有输出有效载荷被压缩。项目链接:https://github.com/JuliusBrussee/caveman
具体的做法是通过一个Skill来实现,它会在发送给大模型的请求中,强制加入特定的角色设定和指令,从源头上阻止模型讲废话。
它会要求模型停止使用客套话(如「Sure I'd be happy to」)、去除冠词(a,an,the)以及避免使用模棱两可的词汇(如「It might be worth considering」)。
同时,它也要求模型必须保留代码块、错误信息和专业技术术语的原样。

而关于深度思考方面,Caveman只会影响输出Token,模型寻找Bug、梳理逻辑的内部推理过程依然是完整且庞大的。当模型结束思考,准备「开口」给我们解释时,它受到了caveman指令的约束,只用最少的输出Token把结论输出。
除了让模型「说山顶洞人的话」来节省输出Token,这个项目还提供了一个caveman-compress脚本来让模型「少阅读」。
它可以将我们的项目记忆文件(如CLAUDE.md)预先重写并压缩成「山顶洞人语版本」。这样一来,每次我们开启新会话时,大模型需要读取的输入Token(Input Tokens),经过测试减少了约45%,实现了输入和输出的双重节省。

目前这个项目在GitHub上已经拿下了快有6000个Stars。然后很快又有网友给出了「山顶洞人-压缩版」,通过进一步压缩Caveman项目的输入来减少Token。

Caveman的开发者在项目说明文档里面提到,使用山顶洞人的模式是有科学依据的,他提到了今年3月的一篇名为《Brevity Constraints Reverse Performance Hierarchies in Language Models》(简短约束逆转了语言模型的性能层级)的论文。
研究发现,大模型的客套话和长篇大论有时是一种debuff。强制大型模型给出简短的回复,不仅没有让它变笨,反而使其在某些基准测试上的准确率提高了26个百分点。

简洁性的约束消除了反向规模效应。(A)三个条件下的表现显示,在简洁性约束下,大模型显著提升(控制组:40.2%→简洁组:66.5%,+26.3个百分点)。(B)差距缩小在不同数据集上有所变化,在GSM8K和MMLU-STEM中甚至出现完全反转,在简洁条件下大模型表现更优。(C)响应长度验证确认该干预成功操控了冗长度(控制组:197个token→简洁组:78个token,减少60%),从而建立了过度思考与性能下降之间的因果联系。论文链接:https://arxiv.org/abs/2604.00025
去年,视频会议公司Zoom也发布了一篇论文,《Chain of Draft:Thinking Faster by Writing Less》(草稿链:通过少写来更快思考),提出了一种全新的大语言模型推理策略,解决了现有方法中太啰嗦且成本高的问题。
传统的思维链(Chain-of-Thought,CoT)虽然能帮助大模型通过分步推理来解决复杂任务,但这种方法要求模型在给出最终答案前生成大量详细的中间步骤。这导致了极高的计算资源消耗、更长的输出长度以及更高的延迟。
我们人类在解决复杂问题,如数学题或写代码时,通常不会把所有思考细节都长篇大论地写下来。我们习惯于只记录简短的「草稿」或核心信息来推进思考。
论文也是受此启发,希望让大模型也模仿这种高效、极简的策略。作者提出了CoD(草稿思维链)。
在提示词设计上,CoD同样要求模型一步一步地思考,但做了一个关键限制:每个推理步骤只保留最精简的草稿,最多不超过5个词。
例如,在解决简单的数学应用题时,CoT可能会输出几段完整的句子来描述题意,而CoD只需要模型输出类似x=20-12=8这样最核心的公式即可。

比较Claude 3.5 Sonnet在三种不同提示策略下(直接回答(Standard)、思维链(CoT)和草稿链(CoD))在不同任务中的准确性和令牌使用情况。CoD在实现与CoT相似准确性的同时,使用的令牌数量显著更少。论文链接:https://arxiv.org/abs/2502.18600
结果,CoD在保持甚至超越CoT准确率的同时,消耗的Token数量大幅减少,最低仅为CoT的7.6%。
两个研究,都是通过Skill或提示词的方式,来强制限制模型的输出长度。CoD的提示词同样直接,要求模型,「一步一步思考,但每个思考步骤只保留最少的草稿,最多5个词」。
更实用的十个Token节省方案
除了使用Caveman的Skill,有网友还总结了更完整的节省Token十大诀窍。
1、在已发送的消息上修改,而不是另发一条消息
当AI回答不符合我们的预期时,尽量不要发一条「不对,我是指……」来跟进。
因为每发一条新消息,大模型都要把前面的所有聊天记录重新读一遍,导致Token消耗成倍翻滚。正确的做法是:直接点击原消息的「编辑」按钮,修改提示词,然后重新生成。

消息越多,消耗的token也越多。原文来源:https://x.com/0x\_kaize/status/2038286026284667239
2、每15–20条消息就开启一个新对话
长对话是Token的无底洞,在一百多条消息的对话中,可能有98.5%的Token都浪费在让AI重读历史记录上。
当对话变长时,我们可以让AI先总结一下当前进度,然后拿着这段总结去开一个新的对话。
3、将所有问题都集中到一个消息里面发送
不要把「总结这篇文章」、「列出这篇文章的要点」、「给这篇文章想个标题」分成三条消息发送。
把它们合并成一段完整的提示词,不仅能减少系统加载上下文的次数,还能让AI因为看到了全貌而给出更高质量的回答。
4、把反复使用的文件上传到Projects中
如果我们在多个聊天窗口里反复上传同一份长文档,每次上传都会重新消耗大量的Token。
这个时候我们可以利用Projects的缓存功能,文件只需上传一次,后续在这个项目里怎么问关于这份文件的内容,都不会再重复烧Token了。
5、提前设置好「记忆」与用户偏好
大多数时候,我们会按照以前的提示词技巧,在发每次开新对话时,都会「浪费额度」去写「现在你是一个文案策划,用轻松的语气写……」。

现在AI都有用户偏好和记忆功能,我们可以把职业、行文风格、项目信息等偏好保存在设置里,它就会自动生效,帮我们省下大量重复交代背景的Token。
6、关掉不需要的附加功能
联网搜索(Web search)和高级思考(Advanced Thinking)等功能只要开着,每一轮都会额外消耗Token。
除非我们对初步的回答不满意,或者明确需要这些功能,平时在简单地聊天时,可以关闭这些附加功能。
7、用不同的模型解决不同的问题
一些简单的任务,像检查语法、简单排版、快速翻译这些基础活,完全可以使用成本最低的Haiku模型。把节省下来50%–70%的额度,留给那些真正需要深度思考的复杂任务,交给Sonnet或Opus。

8、把工作分散到全天的不同时段
Claude的使用限制是基于「滚动5小时」窗口来计算的,而不是半夜统一清零。
如果我们早上把额度耗光了,下午就会很难受。建议把工作分成早、中、晚几个时段,这样额度会不断自动恢复。
9、尽量避开高峰时段
从2026年3月26日开始,如果在工作日的高峰期(太平洋时间早上5点到11点)使用,同样的请求会更快地消耗限额。如果把重度耗费算力的任务挪到非高峰期(比如晚上或周末),额度会经用得多。

这是基于Claude之前推出的错峰双倍福利,一方面是Anthropic的尖峰服务器压力大,给一些福利希望用户在平谷时候使用Claude,另一方面也确实给北京时间的用户实实在在的优惠。
目前在Cursor等应用内使用大模型,有时候还是会碰到请求过多的提示,尤其是在晚上的时间。
10、开启超额使用(Extra Usage)作为安全网
如果是Claude付费用户,可以在设置里开启超额功能并设定预算上限。
这个方法虽然不省Token,但可以保证当我们的额度耗尽时,系统会自动切换到按量计费,防止在十万火急的工作关头突然被强制阻断。
无论是靠Skills还是我们自己调整提示词,这些方案的底层逻辑都是要减少毫无意义的上下文重读。从千禧年按字算钱的短信,到如今按Token计费的大模型,人类追求沟通效率的本质其实从未改变。
在使用AI的过程中,逐渐养成这些习惯,用「山顶洞人」的语言,只说重点,把Token用在刀刃上,或许是这个Token堪比真金白银的时代,最顶级的提示词技巧。
Less is More.
