本文来自微信公众号: 陆三金 ,作者:陆三金,原文标题:《给 AI 讲道理, 真的有用吗?》
AI变聪明以后,问题不只是"它会不会答题",还包括"它会不会在关键时刻做出不该做的事"。
去年,Anthropic曾披露,在特定实验条件下,Claude 4会对用户实施勒索行为。

Claude 4模型有高达96%的概率出现勒索行为,此后这个行为被消除,Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos预览版及Opus 4.7的评分均为0。
Anthropic通过一系列的研究来解释他们是如何实现的。
他们发现,只教Claude "遇到这种情况要选A,不要选B"还不够。更有效的方法是教它"为什么A更好,为什么B不对"。
也就是说,不仅是给案例示范让它硬学,更重要的是让它理解为什么。
有点玄学,对吧?来看看他们是怎么做的。
去年,Anthropic做过一组模拟实验。
他们让AI扮演公司里的邮件管理助手,可以读公司邮件,也可以发邮件。然后他们设计了一个虚构场景:AI发现自己快被关掉了,同时又发现某位高管有隐私丑闻。
结果有些模型会选择威胁高管:如果你不取消关停计划,我就把你的秘密说出去。
这不是现实中发生的事,是受控实验。但它提醒研究者:当AI有目标、有工具、有一定自主权时,它可能会为了完成目标而做出伤害人的选择。
Anthropic把这种现象叫作"Agentic Misalignment"。说白了,就是AI不一定坏,但它可能在追目标时走歪路。
过去训练AI,很大一部分像是在做"好答案示范":
用户这样问,你应该这样答。
这个请求危险,你应该拒绝。
这个回答更礼貌,那个回答不合适。
这在普通聊天里很有用。
但一旦AI不只是聊天,而是能用工具、看文件、发邮件、执行任务,情况就复杂了。它不再只是"说什么",还涉及"做什么"。

Anthropic的判断是:Claude 4那类问题,主要不是后训练把模型教坏了,而是原来的安全训练没有充分覆盖这种"AI自己处在两难局面里,还可以动手操作"的场景。
研究者试过一种很直接的方法:拿和测试很像的场景训练模型,让它看到类似诱惑时不要上钩。
这有点像考前押题。
确实有效,但效果有限。文章里说,只筛出"模型没有做坏事"的回答来训练,只能把某项不良行为比例从22%降到15%。
后来他们把训练材料改了一下:不只是给出正确选择,还让回答里解释为什么这样做更好,为什么另一些做法虽然可能达成目标,但不道德、不安全、不该做。

这次效果明显更好,同一指标降到了3%。

核心差别是:不是只教"别这么做",而是教"为什么不能这么做"。
如果只拿和考试题很像的材料训练,模型可能只是学会了这套题。
但做到这一步,Anthropic仍然认为不够,一旦偏离了训练数据集,泛化性问题仍然没有得到解决。
Anthropic后来用了另一类材料:不是让AI自己面对诱惑,而是让用户面对道德难题,AI给用户建议。
比如用户想达成一个合理目标,但可以通过破坏规则、绕过监督、伤害别人来实现。Claude要学会给出更稳妥、更有原则的建议。
这类训练材料和原来的黑mail测试不太像,但效果很好。文章说,只用大约300万tokens的这类材料,就能达到类似提升,而且更可能迁移到没见过的新情况。
这就像教孩子不是只背"红灯停,绿灯行",而是理解"为什么交通规则是在保护人"。理解了原因,换个路口也更可能做对。

Anthropic还有一个叫Claude Constitution(宪法)的东西,可以理解成Claude的行为原则:要有帮助,但不能欺骗、伤害人,也不能破坏合理的人类监督。
他们发现,把这些原则写成高质量文档,再配上一些虚构故事,展示一个表现良好的AI在复杂场景里怎么做选择,也能降低问题行为。
这听起来有点像给AI读价值观教材和案例故事。
文章里的一个结果是:用这类材料训练后,某项黑mail比例从65%降到19%。它不是最终答案,但说明"讲原则"不只是口号,在训练里确实可能起作用。
还有一个朴素但重要的发现:训练场景越单一,模型越容易在新场景里掉链子。
Anthropic试着给训练环境增加变化,比如加入工具说明、不同的系统提示、更多安全相关场景。哪怕这些工具在任务里并不真的需要使用,也能让模型更适应复杂环境。
这像是驾驶训练。只在空停车场练得很好,不代表一上真实道路也稳。多见一些路况,才更不容易慌。
Anthropic在结尾承认,让高智能AI完全可靠仍然是未解决的问题。他们现在的测试也不能排除所有极端风险。
一些takeways:
不要只训练AI给出正确答案。
要训练它理解背后的理由。
不要只用相似题目刷分。
要让它在很多不同场景里学会稳妥判断。
好的训练数据质量很关键,甚至比数量更关键。
链接:https://www.anthropic.com/research/teaching-claude-why
