本文梳理Anthropic官方提示词实践课核心观点,纠正提示词误区,分享提炼的复用框架,附作者自用AI工作流优化经验。 ## 1. Anthropic官方提示词课核心实践结论 这场偏生产实践的讲座演示了如何将模糊提示词迭代优化为结构清晰、适配真实业务的提示词,纠正了「提示词是模型能力不足时的权宜之计,模型变强后就无用」的常见误区。Anthropic针对零售店排班任务测试:同一个小模型Sonnet 4.6,优化出「生成-评价-修复」循环工作流后,所有测试从全挂变为全过,且消耗token更少、延迟更低。 ## 2. 讲座提炼的四大提示词核心原则 1. 始终依靠系统化评估验证每一次提示词改动,不凭感觉修改。 2. 保持提示词「卫生」,需清理冗余内容,用XML标签区分结构。 3. 不要试图用纯指令弥补模型能力缺口,需要时应接入外部工具。 4. 处理复杂任务时,搭建多提示词协作的智能体工作流,比堆长提示词做大模型单次调用更高效、便宜且易维护。 ## 3. 作者基于课程开发的提示词优化框架 作者将课程内容整理后喂给Codex,提炼出可复用的系统化提示词框架并开源。 ## 4. 日常AI工作流的提示词优化经验 作者日常将AI任务分为两类:重型复杂任务用Codex或Claude Code处理,轻型紧急任务习惯用ChatGPT随手提问。针对轻型任务作者发现反直觉结论:用短提示词赶活仅省几秒,但需追加多轮调整,总耗时可达10分钟;一开始花1-2分钟写结构完整的提示词,总耗时反而更短。
看完爆火的Anthropic 官方提示词课,我连夜做了个“全局优化器”
2026-06-03 20:34

看完爆火的Anthropic 官方提示词课,我连夜做了个“全局优化器”

本文来自微信公众号: AI Humanist by杉森楠 ,作者:杉森楠,原文标题:《看完爆火的 Anthropic 官方提示词课,我连夜做了个「全局优化器」|已开源》


这两天,Anthropic两周前的官方讲座《The Prompting Playbook》,又小火了一把。


这场讲座来自Anthropic的开发者技术工坊系列Code w/Claude 2026,整个系列都很偏实践、偏开发。这一期是个实操型的workshop,主讲的是Anthropic的Apply AI团队,从头到尾就围绕一件事:怎么写出一个能真正在生产环境里用起来的Prompt。


我完整看了一遍,整体确实很贴近生产场景。这一年里,专门讲「在真实业务里怎么把提示词做好」的内容很少,这一期算难得的。它也算是继去年大火的《Prompting 101》之后,又一期高质量的提示词实践教学。


整场内容我就不一句句复述了,说实话讲得比较散。核心就是他们现场演示,怎么把一个模糊的提示词,一步步改成结构清晰、能扛住真实业务的提示词。


他们重点演示的,是怎么让一个提示词具备明确的角色、任务背景、约束条件和输出格式。这几样东西对效果的提升非常明显。


这里也纠正了一个常见误解:很多人觉得提示词这东西,只是模型能力不够强时的一种取巧手段,模型一强就没用了。但从他们的实际研究看,完全不是这样。


下面先从原理说起,顺便把这个误区讲清楚。


他们做了一组多轮测试,针对的是一个零售店的排班业务,用到两个模型:小模型Sonnet 4.6和大模型Opus 4.7。围绕同一个任务,提示词一共调了五轮。


第一轮,用的是最基础的提示词加小模型Sonnet 4.6。结果推理能力明显不够,严重违反了排班规则,测试几乎全挂。



接下来几轮,他们继续优化提示词,模型还是那个小模型。加上一些更复杂的推理指令之后,部分测试开始通过了。但小模型的token上限也带来了新麻烦:有些用例还是会失败,延迟也偏高。



到了第五轮,他们换了个思路,搭了一个「生成、评价、修复」的循环,模型依旧是小模型Sonnet 4.6。这一次,所有测试全部通过,用掉的token反而更少,延迟也更低。



同一个小模型,从全挂到全过,中间差的就是提示词和工作流。这一整期教学,我自己提炼出几个比较关键的点:


(1)始终靠系统化的评估(Evals)来验证每一次提示词的改动,凭感觉改不算数。


(2)保持提示词的「卫生」:清理冗余内容,用XML标签把结构区分清楚。


(3)别想着用纯指令去弥补能力上的缺口,该上外部工具就上外部工具。


(4)面对复杂任务,与其堆一个超长提示词、再做一次昂贵的大模型单次调用,不如搭一个多提示词协作的智能体工作流(Agentic Loop),往往更高效、更便宜,也更好维护。


看完之后,我把这一期的所有内容整理成了一份上下文,喂给Codex,让它据此整理出一套可以反复复用的提示词框架,分享给大家:



不过整个提示词内容实在太长了,而且我觉得,光甩一份提示词出来,意义也不大。正好借这个机会,聊聊我平常用AI的工作流。


我日常用AI,大致分两条路径。


一条是「重型任务」。碰到比较复杂的任务,或者需要深度获取知识的内容,我一般会用Codex或者Claude Code去做问答,或者直接Vibe Coding。


另一条是「轻型任务」。平常那些比较急、只需要一点轻量知识、或者想立刻搜一个结果、立刻拿到一个判断的场景,我一般会用ChatGPT。因为我用的是Atlas浏览器,它默认就带着ChatGPT,顺手。


但问题就出在「轻型任务」路径。这种时候我往往嫌麻烦,不会专门去搭一个完整的提示词框架,随手就敲一句很短的话进去。结果提示词效果也确实一般,最后还得来回调好几轮。



这里就有个挺反直觉的,我后来也注意到了:我用一句话的短提示词去赶一个急活,省下的是写提示词那几秒,但因为质量差,后面你得追加四五轮上下文,反复补充,才能勉强拿到一个像样的结果,前后可能搭进去10分钟。


反过来,如果我一开始就老老实实写一个结构完整、信息到位的提示词,写它花个1到2分钟,生成结果5分钟,总时间反而比硬刚短提示词更短。


最后,祝大家都玩得开心~

AI原生产品日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定