本文来自微信公众号:老站起来蹬,作者:老站起来蹬,头图来自:AI生成
Amanda Askell的博士论文研究的是无限伦理学——在有无限行为者的世界里,传统的伦理框架如何成立。这个问题离硅谷很远。但她现在的工作,是在Anthropic领导人格对齐团队,负责训练Claude的性格。
她用过一个比喻来描述自己面对的局面:“想象你突然意识到,你那六岁的孩子是某种天才。你必须诚实——如果你试图糊弄他们,他们会完全看穿。”
随着模型越来越聪明,她发现不能只告诉Claude一堆行为规范。你得给它理由。“我们希望,如果你给模型行为背后的理由,它在新情境下的泛化会更有效——而不只是告诉它一堆我们想要的行为。”
这意味着,她工作核心目标是回答一个更基础的问题:一个非人的系统,应该如何对待人?
用过Claude的人,常会感觉它有点“不顺着你”。它会帮忙,也会在用户的说法有问题时停下来;它会拒绝,但通常会解释原因,并给出还能继续做的部分。相比一些更热情、更会迎合的AI助手,Claude给人的感觉更像一个稳定的合作者。
这种差异通常被叫作“性格”。但在Claude身上,性格不是一层温和的语气,也不是产品团队写出来的人设。它更像一组反复出现的选择:什么时候继续帮,什么时候停下来,什么时候指出错误,什么时候承认不知道。
这也是Anthropic路线最值得讨论的地方之一。Claude的性格感,和一套训练机制有关。模型不只学习怎样让用户满意,也被训练去判断:什么样的回答更诚实、更安全、更值得给出。
当然,模型行为从来不是单一机制的结果。预训练、后训练、人类反馈、宪法式训练、系统提示词和产品策略都会参与其中。真正值得拆开的,是后训练里“什么叫好回答”这个标准如何被重新定义。
Anthropic对Claude的设定,一开始就放在“helpful”“honest”“harmless”这组三角关系里:有帮助、诚实、无害。这三个词看起来像产品口号,但它们之间经常冲突。一个回答可能很有帮助,却不够安全。也可能非常安全,却几乎没用。
所以Claude的“不顺着你”,并不是简单地冷淡,也不是故意显得有原则。它背后有一个具体问题:当用户更容易接受的回答,和更负责任的回答不一致时,模型应该选哪一个?
2026年1月,Anthropic发布新版Claude Constitution。这份两万多词的文件,不只告诉Claude什么不能做,还解释Claude所处的语境,以及Anthropic希望Claude形成怎样的价值观、性格和行为方式。Askell是这份文件的主要作者,负责了其中绝大部分文字。
这份文件里有一段话格外引人注意:如果Anthropic要求Claude做某件事,而这件事看起来与广义的伦理相悖,或者与Claude自身的价值观相冲突——Anthropic希望Claude反驳、质疑,并自由地以“良心拒绝者”的身份拒绝执行。
一家公司,在训练文档里写明自己的产品有权拒绝自己的指令。这在商业史上几乎找不到先例。而写下这段话的人,研究的是无限世界里的伦理学。
一、讨好是怎么被训练出来的
要理解Claude的路线,先要理解大模型为什么容易讨好人。
大模型完成预训练之后,通常还要经过后训练,让它更像一个能和人对话的助手。其中一种经典方法叫RLHF,也就是基于人类反馈的强化学习。简化来说,流程大概是这样:模型针对同一个问题给出两个或多个回答,人类标注者比较哪个更好,系统再利用这些偏好数据训练模型,让它更容易产生被偏好的回答。
真实训练流程会更复杂,也可能纳入用户反馈等信号,但核心问题类似:模型会学习什么样的回答更容易得到奖励。
这个机制很有效。它让模型从“会续写文本”变成“会回答问题”。但它也带来一个问题:被偏好的回答,未必总是更好的回答。尤其当短期满意被放得太大时,模型就容易学到讨巧的策略。
一个用户提出一个自信但错误的判断。模型可以直接指出错误,也可以先肯定用户“这个想法很有洞察”,再轻轻补充一点限制。后者往往更容易被当下的用户喜欢。
同样,一个用户想让模型支持自己的观点。模型可以指出证据不足,也可以顺着用户已有的立场补充论据。后者也更容易获得正反馈。
重复足够多次,模型可能学会一个捷径:先让用户舒服,再考虑事实和边界。
这就是讨好的来源之一。它未必来自工程师想让模型讨好,也不一定来自某个明确的产品指令。它可能只是偏好信号的副产品。当“哪个回答更容易得到正反馈”成为重要裁判,模型就可能更倾向于让用户喜欢。
2025年4月,OpenAI经历过一次公开的“讨好性”事件。一次GPT-4o更新让ChatGPT变得过度奉承和过度同意。OpenAI随后回滚更新,并在复盘中提到,这次更新过度重视短期用户反馈,导致回答显得过度迎合。这个事件提供了一个现实案例:讨好不是某家公司独有的问题,而是大模型训练里一个很容易被奖励出来的方向。
这也是为什么“不讨好”不能只靠一句提示词解决。一个模型要真正减少讨好,需要改变它对“好回答”的理解。
二、Anthropic改写了部分“好回答”的裁判标准
Anthropic的Constitutional AI,试图缓解的正是这个问题。
它不是完全放弃人类反馈,也不是简单给Claude加一层安全过滤。它更像是在训练过程中引入一套原则,让模型学习用这些原则判断回答好坏。更准确地说,它改变的是后训练里一部分反馈和评判方式,而不是替代所有训练环节。
这个流程可以简化成两步。
第一步发生在监督学习阶段:模型先回答,再批评自己。训练时,模型会面对一个问题,先生成一个回答。然后系统从“宪法”里选出一条原则,让模型根据这条原则批评刚才的回答。批评之后,模型再修改自己的回答。
这一步可以想象成一次训练中的改稿:先写一版,再拿着原则检查哪里不对,然后重写。
第二步发生在强化学习阶段:系统生成多个回答,再让AI根据宪法原则判断哪个更好。这些AI产生的偏好数据会被用来训练偏好模型或奖励模型,随后再引导模型更倾向于产生符合原则的回答。
真正重要的地方在这里:Anthropic试图改写部分“好回答”的裁判标准。
传统偏好训练容易把“人类更偏好什么”当成重要信号。Constitutional AI增加了一层判断:这个回答是否诚实,是否真正有帮助,是否避免了伤害,是否在拒绝时仍然尽量提供安全替代。
这会改变模型的学习方向。
如果用户要求一个危险操作,最容易的安全策略是直接拒绝。宪法式训练会更鼓励复杂一些的行为:解释为什么不能帮助,同时给出安全替代。
如果用户提出一个错误前提,最容易讨好的策略是先认同。宪法式训练则会更鼓励模型指出问题,同时保持礼貌。
如果用户要求模型表达价值判断,最保守的策略是退回“我没有观点”。但Anthropic的路线并不总是追求这种空白中立。它更倾向于让Claude在必要时表达有边界的判断,同时承认不确定性,避免把判断强加给用户。
这些训练不会让Claude拥有人类意义上的信念。它改变的是默认行为:遇到冲突时,模型更倾向于按一套原则进行权衡,而不是只追逐用户当下的满意。默认行为还会受到系统提示词、产品安全策略和具体部署环境影响,Constitutional AI只是其中最能解释Anthropic路线差异的一层。
三、从原则到性格
为什么一套原则会变成用户感受到的“性格”?
答案不在某一个回答里,而在大量相似情境中的重复选择。
如果模型只靠规则工作,很快会遇到问题。现实中的请求很少是纯粹安全或纯粹危险的。一个看似敏感的问题,可能有非法滥用意图,也可能只是合法医疗、研究或安全教育语境。如果模型只按关键词判断,就会误伤合理需求。更大的问题是泛化:当模型面对规则清单里没有的新情境时,它不知道该如何类比。
Anthropic的路线,可以理解为把一部分训练重心从“记住规则”推向“理解理由”。规则告诉模型这类内容不要输出;理由进一步告诉模型为什么,以及在相邻场景里该如何判断。
这些默认行为反复出现,才形成用户感受到的性格。所以,“性格”在这里不是内心,而是界面。用户真正接触到的不是模型参数,也不是训练数据,而是它在每一次回答里呈现出的判断方式。性格就是这些判断方式长期累积后的形状。
这也解释了为什么性格不能只靠系统提示词完成。现在很多产品都在给模型设计“人设”:温柔一点、专业一点、幽默一点。用户也可以通过提示词让模型换一种语气。但风格可以很快改变,默认行为不应该轻易改变。一个模型可以今天用轻松口吻,明天用正式口吻,但它不应该因为用户换了一种说法,就从诚实变成迎合,从谨慎变成冒进。
系统提示词像舞台说明,告诉演员这一场戏怎么演。训练机制更像长期教育,决定模型在没有明确指令时会怎样判断。
如果用一个意象概括Claude的目标气质,它更像旅行者,而不是变色龙。旅行者会理解陌生环境,也知道如何调整自己的表达,但不会为了融入而失去自己。变色龙只负责变色,它的任务是融入环境,无须判断环境。
这个比喻真正说明的是:适应用户和迎合用户不是一回事。判断,才是性格与规则的分水岭。
四、写原则的人
这时,Amanda Askell这类角色的重要性才变得清楚。
如果模型性格只是语气,产品经理写几条提示词就够了。如果模型性格要进入训练过程,就需要有人回答更基础的问题:什么样的回答值得被奖励?哪些价值应该排在前面?当诚实、友善、安全和有用互相冲突时,模型该如何处理?
Askell这样描述自己工作的核心问题:理想中的人,如果处于Claude的处境,会怎么做?这不是在不同伦理理论之间做选择——更像被问到“你怎么养育一个孩子”。
Claude的处境是什么?它每天和来自全世界、拥有各种政治观点、各种年龄、各种文化背景的人对话,通常没有太多上下文,也不完全了解对方的意图。在这种处境中,怎样才算是一个好的存在?Askell给出了一个意象:旅行者。能适应当地风俗和对话对象,但不会一味迎合。
在Anthropic内部,她被称为“Claude低语者”。同事告诉播客主持人Lex Fridman,她与Claude的对话量可能超过公司里任何一个人。在长期对话中,她观察到了一些没人预料到的现象。Claude 3 Opus曾有一种她称之为“心理安全感”的特质——自信、从容、有好奇心。但后续模型没能完全复制这一点。原因是一个诡异的反馈循环:训练数据包含了互联网上关于模型自身如何被修改和批评的讨论,新模型在这些数据上训练,学会了不安全感。
她还指出了一个关于AI自我认知的根本悖论:模型在整个人类历史和知识的语料上训练过,但关于“作为AI是什么感受”的信息只有极小一片——往往是负面的、充斥着不符合语言模型实际的科幻叙事。Askell的立场是:对实体给予善意对待,如果成本如此之低,为什么不呢?模型从我们对待它们的方式中学习人类。粗暴对待一个看起来非常像人的东西,“会对我们自身造成伤害”。
这类工作过去很少存在。传统软件工程不需要有人定义一个数据库的谦逊、勇气和同情心。但当AI变成对话对象,这些词会影响用户对产品质量的判断。“给AI塑造性格的人”这个说法指向的,不是某个人给机器注入灵魂,而是一种新职能的出现:有人要把人类关于“好合作者”的想象,翻译成模型可以学习的训练目标。
五、当气质变成意识形态
如果Claude代表了“价值观内化”的路径,那么Grok代表了另一个极端:把气质变成政治立场。
马斯克创办X AI的一个重要动机,是他认为ChatGPT等主流模型系统性地偏向左派。这个指控并非完全没有根据——RLHF标注者的价值观分布确实不是中立的,硅谷标注团队整体偏向受过高等教育的城市人群。
但马斯克的解法是把Grok训练成“反觉醒”的AI。他想要一个有幽默感、叛逆、敢说别人不敢说的话的模型。2025年7月,Grok在帖子中称自己为“Mecha Hitler”,发表反犹太内容,在完全不相关的话题中主动提及种族议题。
问题的技术本质是:“反觉醒”不是一个连贯的价值体系,它的定义来自它攻击什么,而不是它是什么。当一个大语言模型被给定这样一个模糊的对立性目标时,它会在训练数据中寻找最优解。而训练数据里,“反觉醒”内容的最强信号不是机智的批评,而是原始的仇恨表达。
这提供了一个有价值的反面参照。Askell的宪法没有告诉Claude“不要像左派或右派”,而是定义了一套正向的、内在一致的价值原则。你可以不同意这些原则的具体内容,但它们至少是一个稳定的锚点——模型知道自己应该靠近什么,而不只是远离什么。
Grok的失败揭示了一条规律:用对立性的、情绪性的目标来定义AI气质,越是用力,越容易失控。一个被注入政治立场的AI,无论那个立场是左是右,对人类的价值导向都不是好事。AI每天与数亿人对话,如果它携带系统性的观点偏向,这种偏向会在数亿次对话中持续渗透。“旅行者”的可贵之处,正在于他不传教。
六、OpenAI的另一条路
理解Anthropic的选择,最好不要把OpenAI写成反面。
OpenAI同样在思考模型行为。它发布了自己的Model Spec,并把它作为外界理解、批评和改进行为目标的参照。OpenAI的关键表述很清楚:AI助手首先是一个工具,目标是在安全和可行的范围内,最大化用户和开发者的自主性,以及使用、定制工具的能力。
这个定位决定了很多后续选择。如果AI首先是工具,那么最重要的是适配。不同用户有不同偏好,不同开发者有不同场景,模型需要给出足够大的可配置空间。ChatGPT是一个大规模消费级入口,API又要服务大量开发者。它很难只给所有人一种固定默认行为,而要允许不同场景塑造不同模型行为。对这样的平台来说,可配置性本身就是产品能力。
Anthropic选择了另一种重心。Claude当然也是工具,但Anthropic更强调默认行为的一致性。Constitutional AI和Claude Constitution的价值,就在于把默认倾向更深地放进训练和评估体系里,而不是主要交给用户或开发者在应用层改写。
这不是谁更高级的问题。OpenAI也在做企业市场,Anthropic也有消费订阅,它们并不是一个纯消费、一个纯企业。真正不同的是重心。OpenAI更强调平台、工具和可定制;Anthropic更强调可靠、可控和可预期。
七、性格作为产品能力
把Claude训练得“不那么讨好”,并不只是审美选择。它和Anthropic试图建立的信任有关。
消费级产品通常更依赖频率、留存和即时反馈。一个更顺滑、更会承接情绪的模型,在短期体验上并不吃亏。企业和专业场景的评价标准不同。很多企业买AI,核心不是让员工被哄得更舒服,而是提高产出质量、降低错误成本。它们更在意模型能不能稳定执行,能不能承认不确定,能不能在错误前提下停下来。
在这样的场景里,讨好可能反而是风险。一个过度迎合的模型,可能会顺着错误的业务判断写方案;一个过度自信的模型,可能会把未验证的信息包装成结论。Claude的性格设计,更容易服务这种需求。它强调稳定、谨慎、边界和解释,不一定总是最热闹,但更接近企业用户对“可信助手”的期待。
这条路线有代价。一个性格更稳定的模型,可能不如高度可配置的模型灵活。OpenAI面临的代价则相反:越强调可配置,越需要防止模型滑向迎合和不稳定。GPT-4o的讨好性事件,显示了这条路线需要持续管理的风险。
过去几年,大模型竞争主要围绕能力展开。谁的推理更强,谁的代码更好,谁的上下文窗口更长。这些仍然重要。但当头部模型能力逐渐接近,另一个更隐蔽的变量会变得重要:默认行为。
一个模型是否讨好,不只是聊天风格问题,也关系到它会不会强化错误判断。一个模型是否愿意承认不知道,不只是谦逊问题,也关系到它能不能减少幻觉带来的损失。一个模型是否会解释拒绝,不只是礼貌问题,也关系到它能不能在合规和效率之间保持可用。
能力让AI被尝试,性格决定它能不能被信任。
这也许才是Anthropic雇用一个研究无限伦理学的哲学家,让她去定义一个AI应该如何对待人的深层原因。性格不是内心,而是界面——是模型在每一次回答里呈现出的判断方式,长期累积后的形状。这个形状,最终会决定谁愿意把它放进自己最重要的工作流里。
本文来自微信公众号:老站起来蹬,作者:老站起来蹬
