AI模型越来越强大,成本也水涨船高。面对日益昂贵的Token消耗,文章探讨了从利用特定技能到优化使用习惯等一系列实用策略,旨在帮助用户实现降本增效,核心在于“少即是多”。 ## 1. Token危机:最强大的AI也是最昂贵的 Anthropic发布的最新模型Claude Mythos不仅是史上最强,也是史上最贵,其API价格高达每百万Token输入25美元/输出125美元,比Claude Sonnet贵了近8倍。即便使用普通Agent,一句简单的“你好”也可能消耗掉月度Token额度的13%,使得与AI“说不起话”成为现实问题。 ## 2. 无效尝试:文言文省Token是个伪命题 有网友提出用文言文与AI聊天以节省Token,但测试表明这并不可行。大语言模型的Token划分基于语义而非字符长度,例如“无恙”会被编码成3个Token,而一串8字符的常用短语可能只占1个Token,因此压缩字符数并不能有效减少Token消耗。 ## 3. 有效方案:Caveman技能立降65% Token GitHub上走红的`caveman`项目通过强制角色设定,要求模型停止使用客套话、去除冠词和模糊词汇,实现在多项基准任务中节省约65%的输出Token,且保证100%准确率。该项目还提供压缩脚本,能将项目记忆文件重写为“山顶洞人语”,使输入Token减少约45%。 ## 4. 科学依据:简洁约束反而提升模型性能 研究论文《Brevity Constraints Reverse Performance Hierarchies in Language Models》指出,强制模型给出简短回复不仅节省Token,更使其在某些任务上的准确率提升了26个百分点。Zoom的论文《Chain of Draft》提出的“草稿思维链”(CoD)方法,要求每个推理步骤不超过5个词,在保持准确性的同时,Token消耗最低可降至传统思维链的7.6%。 ## 5. 十大诀窍:从使用习惯上高效管理Token 1. **编辑而非新增**:修改原消息而非发送新消息,避免AI重读全部历史记录。 2. **定期开启新对话**:每15-20条消息后让AI总结进度,然后开启新对话,避免长对话的无底洞消耗。 3. **合并问题**:将多个相关请求合并到一条消息中发送,减少上下文加载次数。 4. **利用Projects缓存**:将常用文件上传至Projects,避免重复上传消耗Token。 5. **预设记忆与偏好**:在设置中保存职业、风格等偏好,省去每次重复交代背景的Token。 6. **关闭非必要功能**:如非必需,关闭联网搜索、高级思考等常开即耗Token的功能。 7. **模型分工**:简单任务用低成本模型(如Haiku),复杂任务再用高性能模型。 8. **分散使用时段**:基于“滚动5小时”的限额,将工作分散到全天不同时段。 9. **避开高峰**:在非高峰期(如晚上或周末)使用,同样的请求消耗的限额更少。 10. **开启超额使用**:付费用户可设定预算上限,额度耗尽时自动按量计费,避免工作中断。
最强Claude比黄金还贵,有人用省token.skill 立降65%,还有10个小妙招
2026-04-09 10:12

最强Claude比黄金还贵,有人用省token.skill 立降65%,还有10个小妙招

本文来自微信公众号: APPSO ,作者:发现明日产品的


Anthropic发布了史上最强的模型Claude Mythos。


也是史上最贵的。25/125美元每输入/输出百万Token,作为对比,Claude Sonnet 4.6的价格是3/15美元——贵了将近8倍。



而这还只是API价格。Mythos目前根本没有对普通用户开放,因为能力太强,Anthropic自己都没想好怎么给我们用。


最强,也最贵。这两件事放在一起,某种程度上已经预示了接下来的走向:模型越来越聪明,Token越来越值钱,我们跟AI说话的成本,也越来越高。


但眼下的问题还不用等到Mythos。就是普通的Agent,甚至是对话聊天,在各种Skill、记忆系统的加持下,发一句「你好」,都有可能用掉13%的月度Token额度。



Reddit讨论帖链接:https://www.reddit.com/r/Anthropic/comments/1s8wwra/13_usage_for_one_hello_is_insane_max20_plan/


AI是越来越聪明,但我们可能快要跟它「说不起话」了。怎么节省Token成了这段时间以来,社交媒体上热议的话题。


有人提出用文言文的方式和AI聊天,毕竟古人说话字斟句酌,没有半点废话;还有人想到在不同的模型之间快速切换,用聪明的Claude指定策略、Gemini进行深度研究、然后ChatGPT来完成枯燥的流程工作。


这种感觉很像回到了2000年还没有数据流量的时候,用手机短信和朋友聊天,0.1元/条,每条短信还有字数限制,超过字数会自动计算为两条短信,所以一定得事先组织好语言,把要讲的事情在一条短信内说清楚。


回到大模型,在对话框里每按一次发送,一边要担心上下文窗口有限,一边也在想这次又要花掉我多少Token。


当个山顶洞人,回到石器时代


以文言相与,观若用字更少,然其实果更省乎?


前段时间,有网友在X上发梗图讨论用文言文,是不是能减少Token的使用。毕竟文言文相比白话文,用的字更少,把我们的语言都压缩成「之乎者也」的表达,所消耗的token按理说也会更少。


评论区都在调侃,这是在用人脑的Token来弥补AI Token。



我们的大脑编译文言文不用花钱,消耗再多Token倒也无所谓;但真实的情况是,消耗了脑力,写出了像模像样的文言文,最后并没有减少Token的使用。


对于大语言模型来说,越常用的词占用的Token越少,它并不是按照文字的长短来定义数量,而是依据语义进行划分。


就像下面的例子,一开始使用文言文只有21个字符,但是Token数也是20,切换到白话文,字符数来到31个,Token数依然是21。



Token计算:https://platform.openai.com/tokenizer


更离谱的是,我们之前分享过的GPT-4o词元污染,输入一串8个字符的短语,在AI大模型眼里只占用了1个Token。而对于一些非常用字,例如「无恙」,ChatGPT会将其编码成3个token,因为「恙」会变成乱码。



文言文不行,又有开发者提出回到石器时代,用穴居人的方式和AI「对话」。


一个名叫caveman的项目这几天在GitHub上走红,和用文言文玩梗不同,这个项目实打实地做了一些测试,并给出了可以复现的benchmark。


在展示的多项基准任务里面,使用Cavemen项目之后,能节省约65%的Token,同时能保证输出内容的100%准确。



测试结果显示,在标准软件工程任务上,平均压缩率达到65%,而且推理令牌不受影响,只有输出有效载荷被压缩。项目链接:https://github.com/JuliusBrussee/caveman


具体的做法是通过一个Skill来实现,它会在发送给大模型的请求中,强制加入特定的角色设定和指令,从源头上阻止模型讲废话。


它会要求模型停止使用客套话(如「Sure I'd be happy to」)、去除冠词(a,an,the)以及避免使用模棱两可的词汇(如「It might be worth considering」)。


同时,它也要求模型必须保留代码块、错误信息和专业技术术语的原样。



而关于深度思考方面,Caveman只会影响输出Token,模型寻找Bug、梳理逻辑的内部推理过程依然是完整且庞大的。当模型结束思考,准备「开口」给我们解释时,它受到了caveman指令的约束,只用最少的输出Token把结论输出。


除了让模型「说山顶洞人的话」来节省输出Token,这个项目还提供了一个caveman-compress脚本来让模型「少阅读」。


它可以将我们的项目记忆文件(如CLAUDE.md)预先重写并压缩成「山顶洞人语版本」。这样一来,每次我们开启新会话时,大模型需要读取的输入Token(Input Tokens),经过测试减少了约45%,实现了输入和输出的双重节省。



目前这个项目在GitHub上已经拿下了快有6000个Stars。然后很快又有网友给出了「山顶洞人-压缩版」,通过进一步压缩Caveman项目的输入来减少Token。



Caveman的开发者在项目说明文档里面提到,使用山顶洞人的模式是有科学依据的,他提到了今年3月的一篇名为《Brevity Constraints Reverse Performance Hierarchies in Language Models》(简短约束逆转了语言模型的性能层级)的论文。


研究发现,大模型的客套话和长篇大论有时是一种debuff。强制大型模型给出简短的回复,不仅没有让它变笨,反而使其在某些基准测试上的准确率提高了26个百分点。



简洁性的约束消除了反向规模效应。(A)三个条件下的表现显示,在简洁性约束下,大模型显著提升(控制组:40.2%→简洁组:66.5%,+26.3个百分点)。(B)差距缩小在不同数据集上有所变化,在GSM8K和MMLU-STEM中甚至出现完全反转,在简洁条件下大模型表现更优。(C)响应长度验证确认该干预成功操控了冗长度(控制组:197个token→简洁组:78个token,减少60%),从而建立了过度思考与性能下降之间的因果联系。论文链接:https://arxiv.org/abs/2604.00025


去年,视频会议公司Zoom也发布了一篇论文,《Chain of Draft:Thinking Faster by Writing Less》(草稿链:通过少写来更快思考),提出了一种全新的大语言模型推理策略,解决了现有方法中太啰嗦且成本高的问题。


传统的思维链(Chain-of-Thought,CoT)虽然能帮助大模型通过分步推理来解决复杂任务,但这种方法要求模型在给出最终答案前生成大量详细的中间步骤。这导致了极高的计算资源消耗、更长的输出长度以及更高的延迟。


我们人类在解决复杂问题,如数学题或写代码时,通常不会把所有思考细节都长篇大论地写下来。我们习惯于只记录简短的「草稿」或核心信息来推进思考。


论文也是受此启发,希望让大模型也模仿这种高效、极简的策略。作者提出了CoD(草稿思维链)。


在提示词设计上,CoD同样要求模型一步一步地思考,但做了一个关键限制:每个推理步骤只保留最精简的草稿,最多不超过5个词。


例如,在解决简单的数学应用题时,CoT可能会输出几段完整的句子来描述题意,而CoD只需要模型输出类似x=20-12=8这样最核心的公式即可。



比较Claude 3.5 Sonnet在三种不同提示策略下(直接回答(Standard)、思维链(CoT)和草稿链(CoD))在不同任务中的准确性和令牌使用情况。CoD在实现与CoT相似准确性的同时,使用的令牌数量显著更少。论文链接:https://arxiv.org/abs/2502.18600


结果,CoD在保持甚至超越CoT准确率的同时,消耗的Token数量大幅减少,最低仅为CoT的7.6%。


两个研究,都是通过Skill或提示词的方式,来强制限制模型的输出长度。CoD的提示词同样直接,要求模型,「一步一步思考,但每个思考步骤只保留最少的草稿,最多5个词」。


更实用的十个Token节省方案


除了使用Caveman的Skill,有网友还总结了更完整的节省Token十大诀窍。


1、在已发送的消息上修改,而不是另发一条消息


当AI回答不符合我们的预期时,尽量不要发一条「不对,我是指……」来跟进。


因为每发一条新消息,大模型都要把前面的所有聊天记录重新读一遍,导致Token消耗成倍翻滚。正确的做法是:直接点击原消息的「编辑」按钮,修改提示词,然后重新生成。


消息越多,消耗的token也越多。原文来源:https://x.com/0x\_kaize/status/2038286026284667239

2、每15–20条消息就开启一个新对话


长对话是Token的无底洞,在一百多条消息的对话中,可能有98.5%的Token都浪费在让AI重读历史记录上。


当对话变长时,我们可以让AI先总结一下当前进度,然后拿着这段总结去开一个新的对话。


3、将所有问题都集中到一个消息里面发送


不要把「总结这篇文章」、「列出这篇文章的要点」、「给这篇文章想个标题」分成三条消息发送。


把它们合并成一段完整的提示词,不仅能减少系统加载上下文的次数,还能让AI因为看到了全貌而给出更高质量的回答。


4、把反复使用的文件上传到Projects中


如果我们在多个聊天窗口里反复上传同一份长文档,每次上传都会重新消耗大量的Token。


这个时候我们可以利用Projects的缓存功能,文件只需上传一次,后续在这个项目里怎么问关于这份文件的内容,都不会再重复烧Token了。


5、提前设置好「记忆」与用户偏好


大多数时候,我们会按照以前的提示词技巧,在发每次开新对话时,都会「浪费额度」去写「现在你是一个文案策划,用轻松的语气写……」。



现在AI都有用户偏好和记忆功能,我们可以把职业、行文风格、项目信息等偏好保存在设置里,它就会自动生效,帮我们省下大量重复交代背景的Token。


6、关掉不需要的附加功能


联网搜索(Web search)和高级思考(Advanced Thinking)等功能只要开着,每一轮都会额外消耗Token。


除非我们对初步的回答不满意,或者明确需要这些功能,平时在简单地聊天时,可以关闭这些附加功能。


7、用不同的模型解决不同的问题


一些简单的任务,像检查语法、简单排版、快速翻译这些基础活,完全可以使用成本最低的Haiku模型。把节省下来50%–70%的额度,留给那些真正需要深度思考的复杂任务,交给Sonnet或Opus。


8、把工作分散到全天的不同时段


Claude的使用限制是基于「滚动5小时」窗口来计算的,而不是半夜统一清零。


如果我们早上把额度耗光了,下午就会很难受。建议把工作分成早、中、晚几个时段,这样额度会不断自动恢复。


9、尽量避开高峰时段


从2026年3月26日开始,如果在工作日的高峰期(太平洋时间早上5点到11点)使用,同样的请求会更快地消耗限额。如果把重度耗费算力的任务挪到非高峰期(比如晚上或周末),额度会经用得多。


这是基于Claude之前推出的错峰双倍福利,一方面是Anthropic的尖峰服务器压力大,给一些福利希望用户在平谷时候使用Claude,另一方面也确实给北京时间的用户实实在在的优惠。


目前在Cursor等应用内使用大模型,有时候还是会碰到请求过多的提示,尤其是在晚上的时间。


10、开启超额使用(Extra Usage)作为安全网


如果是Claude付费用户,可以在设置里开启超额功能并设定预算上限。


这个方法虽然不省Token,但可以保证当我们的额度耗尽时,系统会自动切换到按量计费,防止在十万火急的工作关头突然被强制阻断。


无论是靠Skills还是我们自己调整提示词,这些方案的底层逻辑都是要减少毫无意义的上下文重读。从千禧年按字算钱的短信,到如今按Token计费的大模型,人类追求沟通效率的本质其实从未改变。


在使用AI的过程中,逐渐养成这些习惯,用「山顶洞人」的语言,只说重点,把Token用在刀刃上,或许是这个Token堪比真金白银的时代,最顶级的提示词技巧。


Less is More.

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定