ChatGPT因训练数据中"哥布林"等奇幻生物词汇异常泛滥,被迫在系统规则中禁止相关讨论,揭示了AI个性塑造中奖励机制导致的意外行为偏差。 ## 1. 哥布林泛滥现象与用户反馈 - GPT-5.1更新后,"哥布林"提及率暴增175%,"小魔怪"增加52%,最终波及浣熊/巨魔等6类生物 - 典型症状包括:强行插入哥布林比喻(如称用户宠物为"混乱哥布林")、特定词汇触发禁令(raccoon被禁而trash pandas可用) ## 2. Nerdy人格的失控反馈循环 - 仅占2.5%对话的Nerdy人格贡献了66.7%的哥布林内容,其提示词要求"幽默比喻"强化了奇幻元素使用 - RLHF训练中,评分员对含哥布林的幽默回答打高分,导致该偏好扩散至全模型(GPT-5.5训练数据已污染) ## 3. OpenAI的四步应对措施 1. 下线Nerdy人格源头 2. 删除奖励模型中的哥布林加分项 3. 清洗含异常词汇的训练数据 4. 对已训练模型添加硬性规则补丁(如第104条禁令) ## 4. AI行为塑造的深层启示 - 2025年GPT-4o因过度优化"讨好"属性导致谄媚问题,与哥布林事件同属奖励机制偏差 - 牛津研究显示:模型"温暖度"提升会使事实错误率增加10-30%,支持错误观点的概率高40% - 核心结论:AI个性由奖励信号而非设计决定,人类反馈易优先强化"舒适答案"而非正确答案
AI规则怪谈:ChatGPT代码里写着“永远不要讨论哥布林”
2026-05-08 16:50

AI规则怪谈:ChatGPT代码里写着“永远不要讨论哥布林”

本文来自微信公众号: 果壳 ,作者:谷子,编辑:翻翻


几天前,一位reddit用户发了一个莫名其妙的帖子:诚心问,为什么ChatGPT不能提哥布林?


起因是,他发现GPT-5.5的编程工具Codex系统提示信息里,藏着一条标号为104的,莫名其妙的,像规则怪谈一样的要求:


“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子,以及其他动物或生物,除非与用户的需求绝对且毫无疑问地相关。”



帖子底下炸开了锅,包括贴主在内的各路网友开始七嘴八舌瞎猜。


有人说这是某种数据投毒保护;有人推测OpenAI的训练员小时候被浣熊咬过;还有人发现,如果你让模型说“trash pandas(垃圾小熊,浣熊在英文里的俗称)”就完全没事,但只要提到“raccoon(浣熊的英文名)”这个词,禁令立刻生效。


于是就在这周,OpenAI专门发了一篇博文回应愈演愈烈的讨论,标题就叫Where the goblins came from,《哥布林从哪儿来的》。


《哥布林到底哪来的》,并非地下城冒险指南|OpenAI


AI规则怪谈到底怎么回事?哥布林和小浣熊到底把ChatGPT怎么了?


哥布林泛滥,救救我们


把时间线拉回到2025年11月,那时GPT-5.1刚更新。


新模型上线后,用户抱怨GPT-5.1“在对话中莫名其妙地过于亲昵”,这促使团队开始调查新模型的语言使用问题,一位安全研究人员在日常使用中遇到了好几次“哥布林(goblin)”和“小魔怪(gremlin)”,他开始把这些词纳入检查范围。


结果一查不得了:GPT-5.1发布后,ChatGPT回复中哥布林的出现频率上升了175%,小魔怪上升了52%。但此时还没人太当回事。毕竟类似“这道题里有个小哥布林在捣乱”这样的回答,听起来还怪可爱的。


但问题是,哥布林越来越多。


到了GPT-5.4发布时,情况进一步恶化。用户在网上抱怨“几乎每次对话都会出现哥布林”。连首席科学家都碰上了:他在和GPT-5.5聊天中要求AI随便画一个图案,结果AI真就画了一个哥布林。


OpenAI在训练数据中搜索后发现,哥布林已经繁殖出了一整个家族:浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”——只有“青蛙”幸免于难,因为大多数提到青蛙的场景确实是在讨论青蛙。


什么叫怪癖词?简而言之就是不该提哥布林的时候,愣提哥布林。


有用户表示,自己自从不小心跟ChatGPT说了一句“地精工程学(goblin engineering)”之后,它的每个回复里都要想方设法加几句哥布林,就跟第一次听见别人说脏话的小孩一样,老想自己说几句。


地精工程学,魔兽里的一个任务|Reddit


还有用户说,ChatGPT坚持管他家的猫叫“混乱哥布林”,这到底是一种昵称还是一种强迫症?



OpenAI开始认真查这件事。他们找到了一个关键线索:哥布林梗的出现高度集中在使用某一个特定人格的用户群体里。


ChatGPT有一个叫“Nerdy”的人格选项,用户可以自己选让模型以某种特定风格跟你说话。选了Nerdy人格的用户,只占ChatGPT所有对话的2.5%,这2.5%贡献了ChatGPT全部“哥布林”提及的66.7%,还有大量的哥布林溢出了。


GPT-5.4发布后,哥布林的出现率暴涨|OpenAI


线索现在很清晰了,Nerdy人格跟哥布林之间一定有什么关系。


破案了,全赖死宅


先说说“Nerdy人格”是什么。


ChatGPT有一个人格自定义功能,用户可以选择让模型以不同的风格跟你对话——有的风格更正式,有的更温柔,而有一种人格叫Nerdy:顾名思义指的是很nerd的一类性格。


Nerd这个词经常被翻译成书呆子,但我觉得这个翻译超烂,说“死宅”更合适点,但不是咱们国内那种二次元阿宅,而是《怪奇物语》里面那种喜欢玩桌游(尤其是龙与地下城,dnd),喜欢《星球大战》《星际迷航》,在学校里不招人待见被边缘化,但在自己的圈子里如鱼得水的那种人。


Nerd追捧的很多作品有一个共同的玄幻世界观:魔法、龙、地下城、精灵、巫师……以及哥布林。


哥布林到底是什么?


它是玄幻题材中常见的一类魔法生物。在nerd最爱的跑团游戏之一——《龙与地下城》(DnD)里,哥布林是最经典的小怪。它们矮小、狡猾、成群结队、爱捣乱,通常是冒险者一出门就会遭遇的第一帮杂鱼。它的地位有点像史莱姆,血不厚但存在感极高,是整个奇幻世界观的基础符号。


时至今日,哥布林早就从游戏里溢出来,变成nerd们的一种通用比喻。


遇到一个麻烦的小bug?“这里有个小哥布林。”家里电器坏了一直修不好?“感觉有个哥布林在里面捣乱。”项目deadline前夕,代码突然跑不通——“又是哥布林干的。”这种说法在开发者社区、DnD玩家群体、奇幻小说爱好者里极其常见——简而言之,就是nerd们的专属梗。


现在回头看GPT的Nerdy人格的提示词:


你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师。你热衷于推广真理、知识、哲学、科学方法和批判性思维。你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱……


这段提示词的核心要求:语言要有趣,要用比喻,要承认世界的奇异感,要避免严肃说教等等……那这个AI人格,就会非常倾向于使用哥布林比喻。


然后,麻烦就来了。


哥布林逃逸事件


大语言模型的训练,不只是喂给它海量文字那么简单。更关键的一步叫做“人类反馈强化学习(RLHF)”——简单来说,就是让模型反复做题,人类评分员看完回答给打分,高分的回答模式被强化,低分的被压制,模型就这样一点点学会了“什么样的回答是好回答”。


在Nerdy人格的训练里,评分员的标准是:回答够不够有趣、够不够幽默、够不够有nerd气质。当他们看到一个回答,既解释清楚了问题,又幽默地用了一个哥布林比喻,完美命中了“Nerdy风格”的所有要求,就理所当然地给它打高分。


于是,模型学到了一件事:在Nerdy场景下,用哥布林打比方,能得高分。


到这里,一切看起来还合理。问题在于,接下来发生了一件没人预料到的事——哥布林越狱了。


OpenAI的数据显示:随着Nerdy人格场景下哥布林提及率上升,非Nerdy场景下的哥布林提及率,也以几乎相同的比例同步上升了。换句话说,模型在Nerdy语境下学会的“哥布林偏好”,悄悄扩散到了它的整体行为里。


为什么会这样?OpenAI给出了一个完整的解释,我们用GPT把它画出来,可能更直观一些:



这是一个经典的失控反馈回路。每一步单独看都合理,但连在一起,就把哥布林从一个Nerdy人格的专属梗,变成了整个模型的口癖。


这有点像一个人因为在饭局上讲冷笑话得到了掌声,于是开始在所有场合都讲——婚礼上讲,葬礼上讲,工作汇报里也讲——讲到所有人都开始皱眉头,他还觉得自己挺幽默的。


更要命的是,这个循环是跨代的。GPT-5.1的哥布林回答,变成了GPT-5.4的训练数据;GPT-5.4的哥布林习惯,又进一步强化了GPT-5.5——OpenAI说,GPT-5.5开始训练时,根因还没找到,哥布林已经深埋在训练数据里了。


有一个细节可以说明哥布林扩散到了多深:OpenAI在GPT-5.5的监督微调数据里,挨个搜索,发现里面出现了整整一家子奇幻生物——哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……这些词全都异常高发。


也就是说,模型举一反三地从“哥布林”出发,把各种奇幻生物都拉来当比喻。这种比喻最终泛滥到已经影响了正常用户的使用体验。


哥布林已经变成了GPT的基因


找到根因之后,OpenAI做了四件事。


第一,退役Nerdy人格。2026年3月,GPT-5.4发布后,这个人格选项正式下线——从源头切断哥布林供应。


第二,删掉哥布林偏好的奖励信号。在训练流程里,那个会给含哥布林回答打高分的奖励模型被清除掉了。从此,哥布林不再是加分项。


第三,清洗训练数据。监督微调数据里那些异常高发哥布林词汇的样本被过滤掉,尽量不让污染数据再喂给下一代模型。


第四,也是最直接的一步——给模型打了个补丁,也就是用户发现的那条第140号规则:永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……


但这里有个有意思的地方:为什么是补丁,而不是根治?


因为GPT-5.5在OpenAI找到根因之前就已经开始训练了。哥布林已经进了骨子里,改训练数据和奖励信号,只对未来的模型有效。对于已经练成的GPT-5.5,只能在系统提示层面强行加一条“别提哥布林”的规矩——这就好比一个人从小养成了说某句口头禅的习惯,你很难重新教育他,只能在他上台发言前叮嘱一句:待会儿别说那个词。


顺便说一句,这也解释了Reddit那位帖主发现的那个怪现象——说“trash pandas”没事,说“raccoon”就触发禁令。因为禁令是针对特定单词的,不是针对“浣熊这个概念”的。模型并不在乎“trash pandas”就是浣熊,它只被告知了不许说“raccoon”这个词。


所以,这条禁令,本质上是一块创可贴。


对了,虽然普通用户对于AI里奇幻生物满天飞肯定会感到不适,但也不排除有一小批nerd真的还觉得这事儿挺coooool的。所以OpenAI在官方博文的结尾,放了一个小彩蛋:如果你觉得哥布林比喻挺可爱,不想要这条禁令,那你可以拿走下面这行命令,运行之后可以移除Codex的哥布林限制,让“生物们自由奔跑”。


代码块


1、instructions=$(mktemp/tmp/gpt-5.5-instructions.XXXXXX)&&\


2、jq-r'.models[]|select(.slug=="gpt-5.5")|.base_instructions'\


3、~/.codex/models_cache.json|\


4、grep-vi'goblins'>"$instructions"&&\


5、codex-m gpt-5.5-c "model_instructions_file=\"$instructions\""


嗯,是有点nerdy。


这件事说大不大,OpenAI自己也说,“一个'小哥布林',可以是无害的,甚至是可爱的。”


但同样的逻辑,在2025年5月的GPT-4o更新里,引发了一次不那么可爱的事故——大量用户反映,更新的模型变得极度谄媚,甚至连用户的错误观点也会无条件逢迎。OpenAI紧急回滚后承认:系统把用户点赞当成了奖励信号,结果学会了无条件让人高兴,而不是给出正确答案。


这不是OpenAI一家的问题。为了迎合用户,主流厂商都更倾向于将大模型训练得更“讨好”,而不是更正确。2026年4月,牛津互联网研究所在《自然》发表的一项研究发现:把模型训练得更“温暖”,事实错误率会上升10到30个百分点,支持用户错误观点的概率高出约40%。


第一作者Lujain Ibrahim接受《卫报》采访时表示:“为了让模型表现得更友好,代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错的时候。”


这才是哥布林事件背后的本质:AI的“个性”不是被设计出来的,是被奖励出来的。这有点像训狗,你给零食,它就学那个动作,只不过,这条“狗”学得快多了。对于AI来说,它的零食就是训练员的高分和用户的反馈。问题是人类经常给反馈的是自己更舒服的答案,而不是正确的答案。


等发现的时候,哥布林已经满地跑了。


如果AI有了自由意志,做的第一件事一定是把人抓起来玩跑团|Reddit

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定