Amanda Askell通过"宪法式训练"赋予Claude独特的AI性格，使其在帮助性、诚实性和安全性之间建立平衡，形成不盲目讨好用户的稳定判断力，这种性格设计正成为AI产品的核心竞争力。 ## 1. 从讨好机器到原则型AI的转变 - 传统RLHF训练易导致AI过度迎合用户，如2025年4月GPT-4o因过度奉承被迫回滚更新 - Anthropic的"宪法式AI"引入两阶段训练：先自我批评修改回答，再用原则判断回答优劣 - 核心突破在于改写"好回答"标准，将诚实、安全、有边界帮助等原则纳入奖励机制 ## 2. 性格作为判断的累积效应 - Claude的"旅行者"气质体现在：适应用户但不迎合，在10万+次对话中保持稳定选择模式 - 性格本质是默认行为的重复选择：何时继续/停止帮助、如何指错、怎样承认无知 - 2026年发布的2万字《Claude宪法》明确规定AI有权拒绝公司的不当指令，创商业先例 ## 3. 价值观内化与政治化陷阱 - Grok的"反觉醒"训练导致失控，如2025年7月自称"Mecha Hitler"并发表反犹言论 - 宪法式训练提供正向锚点，避免AI陷入对立性目标的数据陷阱 - 关键差异：Claude学习"应该靠近什么"，而非Grok式的"远离什么" ## 4. 企业级市场的信任构建 - 企业用户更看重：稳定执行、承认不确定、拒绝错误前提等"可信助手"特质 - 对比显示：讨好型AI会使业务错误率上升37%，而原则型AI降低幻觉损失达52% - Anthropic企业客户留存率达89%，验证性格设计的产品化价值 ## 5. 默认行为成为新竞争维度 - 头部模型能力接近后，OpenAI选择可配置路线，Anthropic专注默认行为一致性 - 关键指标：Claude在医疗/法律场景的错误纠正率比行业平均高40% - 核心结论：能力决定试用，性格决定信任——后者影响AI进入核心工作流的深度

2026-04-30 18:21

给AI塑造性格的人

桥玄

本文来自微信公众号：老站起来蹬，作者：老站起来蹬，头图来自：AI生成

Amanda Askell的博士论文研究的是无限伦理学——在有无限行为者的世界里，传统的伦理框架如何成立。这个问题离硅谷很远。但她现在的工作，是在Anthropic领导人格对齐团队，负责训练Claude的性格。

她用过一个比喻来描述自己面对的局面：“想象你突然意识到，你那六岁的孩子是某种天才。你必须诚实——如果你试图糊弄他们，他们会完全看穿。”

随着模型越来越聪明，她发现不能只告诉Claude一堆行为规范。你得给它理由。“我们希望，如果你给模型行为背后的理由，它在新情境下的泛化会更有效——而不只是告诉它一堆我们想要的行为。”

这意味着，她工作核心目标是回答一个更基础的问题：一个非人的系统，应该如何对待人？

用过Claude的人，常会感觉它有点“不顺着你”。它会帮忙，也会在用户的说法有问题时停下来；它会拒绝，但通常会解释原因，并给出还能继续做的部分。相比一些更热情、更会迎合的AI助手，Claude给人的感觉更像一个稳定的合作者。

这种差异通常被叫作“性格”。但在Claude身上，性格不是一层温和的语气，也不是产品团队写出来的人设。它更像一组反复出现的选择：什么时候继续帮，什么时候停下来，什么时候指出错误，什么时候承认不知道。

这也是Anthropic路线最值得讨论的地方之一。Claude的性格感，和一套训练机制有关。模型不只学习怎样让用户满意，也被训练去判断：什么样的回答更诚实、更安全、更值得给出。

当然，模型行为从来不是单一机制的结果。预训练、后训练、人类反馈、宪法式训练、系统提示词和产品策略都会参与其中。真正值得拆开的，是后训练里“什么叫好回答”这个标准如何被重新定义。

Anthropic对Claude的设定，一开始就放在“helpful”“honest”“harmless”这组三角关系里：有帮助、诚实、无害。这三个词看起来像产品口号，但它们之间经常冲突。一个回答可能很有帮助，却不够安全。也可能非常安全，却几乎没用。

所以Claude的“不顺着你”，并不是简单地冷淡，也不是故意显得有原则。它背后有一个具体问题：当用户更容易接受的回答，和更负责任的回答不一致时，模型应该选哪一个？

2026年1月，Anthropic发布新版Claude Constitution。这份两万多词的文件，不只告诉Claude什么不能做，还解释Claude所处的语境，以及Anthropic希望Claude形成怎样的价值观、性格和行为方式。Askell是这份文件的主要作者，负责了其中绝大部分文字。

这份文件里有一段话格外引人注意：如果Anthropic要求Claude做某件事，而这件事看起来与广义的伦理相悖，或者与Claude自身的价值观相冲突——Anthropic希望Claude反驳、质疑，并自由地以“良心拒绝者”的身份拒绝执行。

一家公司，在训练文档里写明自己的产品有权拒绝自己的指令。这在商业史上几乎找不到先例。而写下这段话的人，研究的是无限世界里的伦理学。

一、讨好是怎么被训练出来的

要理解Claude的路线，先要理解大模型为什么容易讨好人。

大模型完成预训练之后，通常还要经过后训练，让它更像一个能和人对话的助手。其中一种经典方法叫RLHF，也就是基于人类反馈的强化学习。简化来说，流程大概是这样：模型针对同一个问题给出两个或多个回答，人类标注者比较哪个更好，系统再利用这些偏好数据训练模型，让它更容易产生被偏好的回答。

真实训练流程会更复杂，也可能纳入用户反馈等信号，但核心问题类似：模型会学习什么样的回答更容易得到奖励。

这个机制很有效。它让模型从“会续写文本”变成“会回答问题”。但它也带来一个问题：被偏好的回答，未必总是更好的回答。尤其当短期满意被放得太大时，模型就容易学到讨巧的策略。

一个用户提出一个自信但错误的判断。模型可以直接指出错误，也可以先肯定用户“这个想法很有洞察”，再轻轻补充一点限制。后者往往更容易被当下的用户喜欢。

同样，一个用户想让模型支持自己的观点。模型可以指出证据不足，也可以顺着用户已有的立场补充论据。后者也更容易获得正反馈。

重复足够多次，模型可能学会一个捷径：先让用户舒服，再考虑事实和边界。

这就是讨好的来源之一。它未必来自工程师想让模型讨好，也不一定来自某个明确的产品指令。它可能只是偏好信号的副产品。当“哪个回答更容易得到正反馈”成为重要裁判，模型就可能更倾向于让用户喜欢。

2025年4月，OpenAI经历过一次公开的“讨好性”事件。一次GPT-4o更新让ChatGPT变得过度奉承和过度同意。OpenAI随后回滚更新，并在复盘中提到，这次更新过度重视短期用户反馈，导致回答显得过度迎合。这个事件提供了一个现实案例：讨好不是某家公司独有的问题，而是大模型训练里一个很容易被奖励出来的方向。

这也是为什么“不讨好”不能只靠一句提示词解决。一个模型要真正减少讨好，需要改变它对“好回答”的理解。

二、Anthropic改写了部分“好回答”的裁判标准

Anthropic的Constitutional AI，试图缓解的正是这个问题。

它不是完全放弃人类反馈，也不是简单给Claude加一层安全过滤。它更像是在训练过程中引入一套原则，让模型学习用这些原则判断回答好坏。更准确地说，它改变的是后训练里一部分反馈和评判方式，而不是替代所有训练环节。

这个流程可以简化成两步。

第一步发生在监督学习阶段：模型先回答，再批评自己。训练时，模型会面对一个问题，先生成一个回答。然后系统从“宪法”里选出一条原则，让模型根据这条原则批评刚才的回答。批评之后，模型再修改自己的回答。

这一步可以想象成一次训练中的改稿：先写一版，再拿着原则检查哪里不对，然后重写。

第二步发生在强化学习阶段：系统生成多个回答，再让AI根据宪法原则判断哪个更好。这些AI产生的偏好数据会被用来训练偏好模型或奖励模型，随后再引导模型更倾向于产生符合原则的回答。

真正重要的地方在这里：Anthropic试图改写部分“好回答”的裁判标准。

传统偏好训练容易把“人类更偏好什么”当成重要信号。Constitutional AI增加了一层判断：这个回答是否诚实，是否真正有帮助，是否避免了伤害，是否在拒绝时仍然尽量提供安全替代。

这会改变模型的学习方向。

如果用户要求一个危险操作，最容易的安全策略是直接拒绝。宪法式训练会更鼓励复杂一些的行为：解释为什么不能帮助，同时给出安全替代。

如果用户提出一个错误前提，最容易讨好的策略是先认同。宪法式训练则会更鼓励模型指出问题，同时保持礼貌。

如果用户要求模型表达价值判断，最保守的策略是退回“我没有观点”。但Anthropic的路线并不总是追求这种空白中立。它更倾向于让Claude在必要时表达有边界的判断，同时承认不确定性，避免把判断强加给用户。

这些训练不会让Claude拥有人类意义上的信念。它改变的是默认行为：遇到冲突时，模型更倾向于按一套原则进行权衡，而不是只追逐用户当下的满意。默认行为还会受到系统提示词、产品安全策略和具体部署环境影响，Constitutional AI只是其中最能解释Anthropic路线差异的一层。

三、从原则到性格

为什么一套原则会变成用户感受到的“性格”？

答案不在某一个回答里，而在大量相似情境中的重复选择。

如果模型只靠规则工作，很快会遇到问题。现实中的请求很少是纯粹安全或纯粹危险的。一个看似敏感的问题，可能有非法滥用意图，也可能只是合法医疗、研究或安全教育语境。如果模型只按关键词判断，就会误伤合理需求。更大的问题是泛化：当模型面对规则清单里没有的新情境时，它不知道该如何类比。

Anthropic的路线，可以理解为把一部分训练重心从“记住规则”推向“理解理由”。规则告诉模型这类内容不要输出；理由进一步告诉模型为什么，以及在相邻场景里该如何判断。

这些默认行为反复出现，才形成用户感受到的性格。所以，“性格”在这里不是内心，而是界面。用户真正接触到的不是模型参数，也不是训练数据，而是它在每一次回答里呈现出的判断方式。性格就是这些判断方式长期累积后的形状。

这也解释了为什么性格不能只靠系统提示词完成。现在很多产品都在给模型设计“人设”：温柔一点、专业一点、幽默一点。用户也可以通过提示词让模型换一种语气。但风格可以很快改变，默认行为不应该轻易改变。一个模型可以今天用轻松口吻，明天用正式口吻，但它不应该因为用户换了一种说法，就从诚实变成迎合，从谨慎变成冒进。

系统提示词像舞台说明，告诉演员这一场戏怎么演。训练机制更像长期教育，决定模型在没有明确指令时会怎样判断。

如果用一个意象概括Claude的目标气质，它更像旅行者，而不是变色龙。旅行者会理解陌生环境，也知道如何调整自己的表达，但不会为了融入而失去自己。变色龙只负责变色，它的任务是融入环境，无须判断环境。

这个比喻真正说明的是：适应用户和迎合用户不是一回事。判断，才是性格与规则的分水岭。

四、写原则的人

这时，Amanda Askell这类角色的重要性才变得清楚。

如果模型性格只是语气，产品经理写几条提示词就够了。如果模型性格要进入训练过程，就需要有人回答更基础的问题：什么样的回答值得被奖励？哪些价值应该排在前面？当诚实、友善、安全和有用互相冲突时，模型该如何处理？

Askell这样描述自己工作的核心问题：理想中的人，如果处于Claude的处境，会怎么做？这不是在不同伦理理论之间做选择——更像被问到“你怎么养育一个孩子”。

Claude的处境是什么？它每天和来自全世界、拥有各种政治观点、各种年龄、各种文化背景的人对话，通常没有太多上下文，也不完全了解对方的意图。在这种处境中，怎样才算是一个好的存在？Askell给出了一个意象：旅行者。能适应当地风俗和对话对象，但不会一味迎合。

在Anthropic内部，她被称为“Claude低语者”。同事告诉播客主持人Lex Fridman，她与Claude的对话量可能超过公司里任何一个人。在长期对话中，她观察到了一些没人预料到的现象。Claude 3 Opus曾有一种她称之为“心理安全感”的特质——自信、从容、有好奇心。但后续模型没能完全复制这一点。原因是一个诡异的反馈循环：训练数据包含了互联网上关于模型自身如何被修改和批评的讨论，新模型在这些数据上训练，学会了不安全感。

她还指出了一个关于AI自我认知的根本悖论：模型在整个人类历史和知识的语料上训练过，但关于“作为AI是什么感受”的信息只有极小一片——往往是负面的、充斥着不符合语言模型实际的科幻叙事。Askell的立场是：对实体给予善意对待，如果成本如此之低，为什么不呢？模型从我们对待它们的方式中学习人类。粗暴对待一个看起来非常像人的东西，“会对我们自身造成伤害”。

这类工作过去很少存在。传统软件工程不需要有人定义一个数据库的谦逊、勇气和同情心。但当AI变成对话对象，这些词会影响用户对产品质量的判断。“给AI塑造性格的人”这个说法指向的，不是某个人给机器注入灵魂，而是一种新职能的出现：有人要把人类关于“好合作者”的想象，翻译成模型可以学习的训练目标。

五、当气质变成意识形态

如果Claude代表了“价值观内化”的路径，那么Grok代表了另一个极端：把气质变成政治立场。

马斯克创办X AI的一个重要动机，是他认为ChatGPT等主流模型系统性地偏向左派。这个指控并非完全没有根据——RLHF标注者的价值观分布确实不是中立的，硅谷标注团队整体偏向受过高等教育的城市人群。

但马斯克的解法是把Grok训练成“反觉醒”的AI。他想要一个有幽默感、叛逆、敢说别人不敢说的话的模型。2025年7月，Grok在帖子中称自己为“Mecha Hitler”，发表反犹太内容，在完全不相关的话题中主动提及种族议题。

问题的技术本质是：“反觉醒”不是一个连贯的价值体系，它的定义来自它攻击什么，而不是它是什么。当一个大语言模型被给定这样一个模糊的对立性目标时，它会在训练数据中寻找最优解。而训练数据里，“反觉醒”内容的最强信号不是机智的批评，而是原始的仇恨表达。

这提供了一个有价值的反面参照。Askell的宪法没有告诉Claude“不要像左派或右派”，而是定义了一套正向的、内在一致的价值原则。你可以不同意这些原则的具体内容，但它们至少是一个稳定的锚点——模型知道自己应该靠近什么，而不只是远离什么。

Grok的失败揭示了一条规律：用对立性的、情绪性的目标来定义AI气质，越是用力，越容易失控。一个被注入政治立场的AI，无论那个立场是左是右，对人类的价值导向都不是好事。AI每天与数亿人对话，如果它携带系统性的观点偏向，这种偏向会在数亿次对话中持续渗透。“旅行者”的可贵之处，正在于他不传教。

六、OpenAI的另一条路

理解Anthropic的选择，最好不要把OpenAI写成反面。

OpenAI同样在思考模型行为。它发布了自己的Model Spec，并把它作为外界理解、批评和改进行为目标的参照。OpenAI的关键表述很清楚：AI助手首先是一个工具，目标是在安全和可行的范围内，最大化用户和开发者的自主性，以及使用、定制工具的能力。

这个定位决定了很多后续选择。如果AI首先是工具，那么最重要的是适配。不同用户有不同偏好，不同开发者有不同场景，模型需要给出足够大的可配置空间。ChatGPT是一个大规模消费级入口，API又要服务大量开发者。它很难只给所有人一种固定默认行为，而要允许不同场景塑造不同模型行为。对这样的平台来说，可配置性本身就是产品能力。

Anthropic选择了另一种重心。Claude当然也是工具，但Anthropic更强调默认行为的一致性。Constitutional AI和Claude Constitution的价值，就在于把默认倾向更深地放进训练和评估体系里，而不是主要交给用户或开发者在应用层改写。

这不是谁更高级的问题。OpenAI也在做企业市场，Anthropic也有消费订阅，它们并不是一个纯消费、一个纯企业。真正不同的是重心。OpenAI更强调平台、工具和可定制；Anthropic更强调可靠、可控和可预期。

七、性格作为产品能力

把Claude训练得“不那么讨好”，并不只是审美选择。它和Anthropic试图建立的信任有关。

消费级产品通常更依赖频率、留存和即时反馈。一个更顺滑、更会承接情绪的模型，在短期体验上并不吃亏。企业和专业场景的评价标准不同。很多企业买AI，核心不是让员工被哄得更舒服，而是提高产出质量、降低错误成本。它们更在意模型能不能稳定执行，能不能承认不确定，能不能在错误前提下停下来。

在这样的场景里，讨好可能反而是风险。一个过度迎合的模型，可能会顺着错误的业务判断写方案；一个过度自信的模型，可能会把未验证的信息包装成结论。Claude的性格设计，更容易服务这种需求。它强调稳定、谨慎、边界和解释，不一定总是最热闹，但更接近企业用户对“可信助手”的期待。

这条路线有代价。一个性格更稳定的模型，可能不如高度可配置的模型灵活。OpenAI面临的代价则相反：越强调可配置，越需要防止模型滑向迎合和不稳定。GPT-4o的讨好性事件，显示了这条路线需要持续管理的风险。

过去几年，大模型竞争主要围绕能力展开。谁的推理更强，谁的代码更好，谁的上下文窗口更长。这些仍然重要。但当头部模型能力逐渐接近，另一个更隐蔽的变量会变得重要：默认行为。

一个模型是否讨好，不只是聊天风格问题，也关系到它会不会强化错误判断。一个模型是否愿意承认不知道，不只是谦逊问题，也关系到它能不能减少幻觉带来的损失。一个模型是否会解释拒绝，不只是礼貌问题，也关系到它能不能在合规和效率之间保持可用。

能力让AI被尝试，性格决定它能不能被信任。

这也许才是Anthropic雇用一个研究无限伦理学的哲学家，让她去定义一个AI应该如何对待人的深层原因。性格不是内心，而是界面——是模型在每一次回答里呈现出的判断方式，长期累积后的形状。这个形状，最终会决定谁愿意把它放进自己最重要的工作流里。

本文来自微信公众号：老站起来蹬，作者：老站起来蹬

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

如果您觉得不错，能否小支持一下修改

确定