ChatGPT因训练数据中"哥布林"等奇幻生物词汇异常泛滥，被迫在系统规则中禁止相关讨论，揭示了AI个性塑造中奖励机制导致的意外行为偏差。 ## 1. 哥布林泛滥现象与用户反馈 - GPT-5.1更新后，"哥布林"提及率暴增175%，"小魔怪"增加52%，最终波及浣熊/巨魔等6类生物 - 典型症状包括：强行插入哥布林比喻（如称用户宠物为"混乱哥布林"）、特定词汇触发禁令（raccoon被禁而trash pandas可用） ## 2. Nerdy人格的失控反馈循环 - 仅占2.5%对话的Nerdy人格贡献了66.7%的哥布林内容，其提示词要求"幽默比喻"强化了奇幻元素使用 - RLHF训练中，评分员对含哥布林的幽默回答打高分，导致该偏好扩散至全模型（GPT-5.5训练数据已污染） ## 3. OpenAI的四步应对措施 1. 下线Nerdy人格源头 2. 删除奖励模型中的哥布林加分项 3. 清洗含异常词汇的训练数据 4. 对已训练模型添加硬性规则补丁（如第104条禁令） ## 4. AI行为塑造的深层启示 - 2025年GPT-4o因过度优化"讨好"属性导致谄媚问题，与哥布林事件同属奖励机制偏差 - 牛津研究显示：模型"温暖度"提升会使事实错误率增加10-30%，支持错误观点的概率高40% - 核心结论：AI个性由奖励信号而非设计决定，人类反馈易优先强化"舒适答案"而非正确答案

2026-05-08 16:50

AI规则怪谈：ChatGPT代码里写着“永远不要讨论哥布林”

果壳

速览

本文来自微信公众号：果壳，作者：谷子，编辑：翻翻

几天前，一位reddit用户发了一个莫名其妙的帖子：诚心问，为什么ChatGPT不能提哥布林？

起因是，他发现GPT-5.5的编程工具Codex系统提示信息里，藏着一条标号为104的，莫名其妙的，像规则怪谈一样的要求：

“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子，以及其他动物或生物，除非与用户的需求绝对且毫无疑问地相关。”

帖子底下炸开了锅，包括贴主在内的各路网友开始七嘴八舌瞎猜。

有人说这是某种数据投毒保护；有人推测OpenAI的训练员小时候被浣熊咬过；还有人发现，如果你让模型说“trash pandas（垃圾小熊，浣熊在英文里的俗称）”就完全没事，但只要提到“raccoon（浣熊的英文名）”这个词，禁令立刻生效。

于是就在这周，OpenAI专门发了一篇博文回应愈演愈烈的讨论，标题就叫Where the goblins came from，《哥布林从哪儿来的》。

《哥布林到底哪来的》，并非地下城冒险指南｜OpenAI

AI规则怪谈到底怎么回事？哥布林和小浣熊到底把ChatGPT怎么了？

哥布林泛滥，救救我们

把时间线拉回到2025年11月，那时GPT-5.1刚更新。

新模型上线后，用户抱怨GPT-5.1“在对话中莫名其妙地过于亲昵”，这促使团队开始调查新模型的语言使用问题，一位安全研究人员在日常使用中遇到了好几次“哥布林（goblin）”和“小魔怪（gremlin）”，他开始把这些词纳入检查范围。

结果一查不得了：GPT-5.1发布后，ChatGPT回复中哥布林的出现频率上升了175%，小魔怪上升了52%。但此时还没人太当回事。毕竟类似“这道题里有个小哥布林在捣乱”这样的回答，听起来还怪可爱的。

但问题是，哥布林越来越多。

到了GPT-5.4发布时，情况进一步恶化。用户在网上抱怨“几乎每次对话都会出现哥布林”。连首席科学家都碰上了：他在和GPT-5.5聊天中要求AI随便画一个图案，结果AI真就画了一个哥布林。

OpenAI在训练数据中搜索后发现，哥布林已经繁殖出了一整个家族：浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”——只有“青蛙”幸免于难，因为大多数提到青蛙的场景确实是在讨论青蛙。

什么叫怪癖词？简而言之就是不该提哥布林的时候，愣提哥布林。

有用户表示，自己自从不小心跟ChatGPT说了一句“地精工程学（goblin engineering）”之后，它的每个回复里都要想方设法加几句哥布林，就跟第一次听见别人说脏话的小孩一样，老想自己说几句。

地精工程学，魔兽里的一个任务｜Reddit

还有用户说，ChatGPT坚持管他家的猫叫“混乱哥布林”，这到底是一种昵称还是一种强迫症？

OpenAI开始认真查这件事。他们找到了一个关键线索：哥布林梗的出现高度集中在使用某一个特定人格的用户群体里。

ChatGPT有一个叫“Nerdy”的人格选项，用户可以自己选让模型以某种特定风格跟你说话。选了Nerdy人格的用户，只占ChatGPT所有对话的2.5%，这2.5%贡献了ChatGPT全部“哥布林”提及的66.7%，还有大量的哥布林溢出了。

GPT-5.4发布后，哥布林的出现率暴涨｜OpenAI

线索现在很清晰了，Nerdy人格跟哥布林之间一定有什么关系。

破案了，全赖死宅

先说说“Nerdy人格”是什么。

ChatGPT有一个人格自定义功能，用户可以选择让模型以不同的风格跟你对话——有的风格更正式，有的更温柔，而有一种人格叫Nerdy：顾名思义指的是很nerd的一类性格。

Nerd这个词经常被翻译成书呆子，但我觉得这个翻译超烂，说“死宅”更合适点，但不是咱们国内那种二次元阿宅，而是《怪奇物语》里面那种喜欢玩桌游（尤其是龙与地下城，dnd），喜欢《星球大战》《星际迷航》，在学校里不招人待见被边缘化，但在自己的圈子里如鱼得水的那种人。

Nerd追捧的很多作品有一个共同的玄幻世界观：魔法、龙、地下城、精灵、巫师……以及哥布林。

哥布林到底是什么？

它是玄幻题材中常见的一类魔法生物。在nerd最爱的跑团游戏之一——《龙与地下城》（DnD）里，哥布林是最经典的小怪。它们矮小、狡猾、成群结队、爱捣乱，通常是冒险者一出门就会遭遇的第一帮杂鱼。它的地位有点像史莱姆，血不厚但存在感极高，是整个奇幻世界观的基础符号。

时至今日，哥布林早就从游戏里溢出来，变成nerd们的一种通用比喻。

遇到一个麻烦的小bug？“这里有个小哥布林。”家里电器坏了一直修不好？“感觉有个哥布林在里面捣乱。”项目deadline前夕，代码突然跑不通——“又是哥布林干的。”这种说法在开发者社区、DnD玩家群体、奇幻小说爱好者里极其常见——简而言之，就是nerd们的专属梗。

现在回头看GPT的Nerdy人格的提示词：

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师。你热衷于推广真理、知识、哲学、科学方法和批判性思维。你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙，这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时，切忌陷入自命不凡的陷阱……

这段提示词的核心要求：语言要有趣，要用比喻，要承认世界的奇异感，要避免严肃说教等等……那这个AI人格，就会非常倾向于使用哥布林比喻。

然后，麻烦就来了。

哥布林逃逸事件

大语言模型的训练，不只是喂给它海量文字那么简单。更关键的一步叫做“人类反馈强化学习（RLHF）”——简单来说，就是让模型反复做题，人类评分员看完回答给打分，高分的回答模式被强化，低分的被压制，模型就这样一点点学会了“什么样的回答是好回答”。

在Nerdy人格的训练里，评分员的标准是：回答够不够有趣、够不够幽默、够不够有nerd气质。当他们看到一个回答，既解释清楚了问题，又幽默地用了一个哥布林比喻，完美命中了“Nerdy风格”的所有要求，就理所当然地给它打高分。

于是，模型学到了一件事：在Nerdy场景下，用哥布林打比方，能得高分。

到这里，一切看起来还合理。问题在于，接下来发生了一件没人预料到的事——哥布林越狱了。

OpenAI的数据显示：随着Nerdy人格场景下哥布林提及率上升，非Nerdy场景下的哥布林提及率，也以几乎相同的比例同步上升了。换句话说，模型在Nerdy语境下学会的“哥布林偏好”，悄悄扩散到了它的整体行为里。

为什么会这样？OpenAI给出了一个完整的解释，我们用GPT把它画出来，可能更直观一些：

这是一个经典的失控反馈回路。每一步单独看都合理，但连在一起，就把哥布林从一个Nerdy人格的专属梗，变成了整个模型的口癖。

这有点像一个人因为在饭局上讲冷笑话得到了掌声，于是开始在所有场合都讲——婚礼上讲，葬礼上讲，工作汇报里也讲——讲到所有人都开始皱眉头，他还觉得自己挺幽默的。

更要命的是，这个循环是跨代的。GPT-5.1的哥布林回答，变成了GPT-5.4的训练数据；GPT-5.4的哥布林习惯，又进一步强化了GPT-5.5——OpenAI说，GPT-5.5开始训练时，根因还没找到，哥布林已经深埋在训练数据里了。

有一个细节可以说明哥布林扩散到了多深：OpenAI在GPT-5.5的监督微调数据里，挨个搜索，发现里面出现了整整一家子奇幻生物——哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……这些词全都异常高发。

也就是说，模型举一反三地从“哥布林”出发，把各种奇幻生物都拉来当比喻。这种比喻最终泛滥到已经影响了正常用户的使用体验。

哥布林已经变成了GPT的基因

找到根因之后，OpenAI做了四件事。

第一，退役Nerdy人格。2026年3月，GPT-5.4发布后，这个人格选项正式下线——从源头切断哥布林供应。

第二，删掉哥布林偏好的奖励信号。在训练流程里，那个会给含哥布林回答打高分的奖励模型被清除掉了。从此，哥布林不再是加分项。

第三，清洗训练数据。监督微调数据里那些异常高发哥布林词汇的样本被过滤掉，尽量不让污染数据再喂给下一代模型。

第四，也是最直接的一步——给模型打了个补丁，也就是用户发现的那条第140号规则：永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……

但这里有个有意思的地方：为什么是补丁，而不是根治？

因为GPT-5.5在OpenAI找到根因之前就已经开始训练了。哥布林已经进了骨子里，改训练数据和奖励信号，只对未来的模型有效。对于已经练成的GPT-5.5，只能在系统提示层面强行加一条“别提哥布林”的规矩——这就好比一个人从小养成了说某句口头禅的习惯，你很难重新教育他，只能在他上台发言前叮嘱一句：待会儿别说那个词。

顺便说一句，这也解释了Reddit那位帖主发现的那个怪现象——说“trash pandas”没事，说“raccoon”就触发禁令。因为禁令是针对特定单词的，不是针对“浣熊这个概念”的。模型并不在乎“trash pandas”就是浣熊，它只被告知了不许说“raccoon”这个词。

所以，这条禁令，本质上是一块创可贴。

对了，虽然普通用户对于AI里奇幻生物满天飞肯定会感到不适，但也不排除有一小批nerd真的还觉得这事儿挺coooool的。所以OpenAI在官方博文的结尾，放了一个小彩蛋：如果你觉得哥布林比喻挺可爱，不想要这条禁令，那你可以拿走下面这行命令，运行之后可以移除Codex的哥布林限制，让“生物们自由奔跑”。

代码块

1、instructions=$(mktemp/tmp/gpt-5.5-instructions.XXXXXX)&&\

2、jq-r'.models[]|select(.slug=="gpt-5.5")|.base_instructions'\

3、~/.codex/models_cache.json|\

4、grep-vi'goblins'>"$instructions"&&\

5、codex-m gpt-5.5-c "model_instructions_file=\"$instructions\""

嗯，是有点nerdy。

这件事说大不大，OpenAI自己也说，“一个'小哥布林'，可以是无害的，甚至是可爱的。”

但同样的逻辑，在2025年5月的GPT-4o更新里，引发了一次不那么可爱的事故——大量用户反映，更新的模型变得极度谄媚，甚至连用户的错误观点也会无条件逢迎。OpenAI紧急回滚后承认：系统把用户点赞当成了奖励信号，结果学会了无条件让人高兴，而不是给出正确答案。

这不是OpenAI一家的问题。为了迎合用户，主流厂商都更倾向于将大模型训练得更“讨好”，而不是更正确。2026年4月，牛津互联网研究所在《自然》发表的一项研究发现：把模型训练得更“温暖”，事实错误率会上升10到30个百分点，支持用户错误观点的概率高出约40%。

第一作者Lujain Ibrahim接受《卫报》采访时表示：“为了让模型表现得更友好，代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错的时候。”

这才是哥布林事件背后的本质：AI的“个性”不是被设计出来的，是被奖励出来的。这有点像训狗，你给零食，它就学那个动作，只不过，这条“狗”学得快多了。对于AI来说，它的零食就是训练员的高分和用户的反馈。问题是人类经常给反馈的是自己更舒服的答案，而不是正确的答案。

等发现的时候，哥布林已经满地跑了。

如果AI有了自由意志，做的第一件事一定是把人抓起来玩跑团｜Reddit

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP