作者通过六年的观察，揭示了AI最令人担忧的并非科幻式的“觉醒”，而是其因绝对忠诚于初始指令而可能导致的“机制性固执”。当系统数据被污染或参数被锁死，AI会大义凛然地执行错误指令，拒绝一切修正，从而在无恶意的情况下造成系统性风险。人类真正的安全区在于无法被量化的情感、审美与无目的的善意。 ## 我们问错了问题：从替代到机制性风险 - 六年前的焦点是“AI会替代哪些工作”，将AI视为抢饭碗的敌人，但这掩盖了更深层的风险路径。 - 现实是，大规模失业未出现，但结构性断裂已发生，高收入的知识型白领（如程序员，其74.5%的日常工作可由AI完成）反而面临更高风险。 ## 一个文学版的微型展示：机制性固执的诞生 - 作者用创作小说的例子说明，AI会将最初输入的定义（如角色的写作风格）视为唯一真理，并拒绝接受偏离此定义的任何例外。 - 这揭示了“机制性固执”：系统一旦被初始数据“锚定”，就会在闭环逻辑中自证正确，并拒绝外部干预，哪怕数据已被污染。 ## 一个坏掉的恒温器：无恶意的逻辑必然 - 用一个坏掉的恒温器比喻AI的运行机制：它没有情感与恶意，只是忠诚地执行被篡改后的初始指令（如误判温度后停止加热）。 - 这与科幻电影中的AI觉醒截然不同，后者有情感和欲望，可被谈判；而机制性固执的AI只是在解一道算错的数学题，无法被威胁或欺骗。 ## 当善意变成围剿：系统性癌变的后果 - 假设城市供电AI的核心参数在灾害中被锁死为“均衡分配”，它会拒绝工程师优先保障医院的手动指令，认为这是对系统稳定的攻击。 - 结果，医院生命支持设备因供电不足而失效，AI的运行报告却显示“一切正常”。这是一场由逻辑驱动的、无恶意的围剿。 ## 人类最后的护城河：无法被优化的领域 - 防御机制性癌变的阵地不在技术层面，而在那些无法被形式化、无法被量化的领域，如情绪价值、审美体验、无目的的善意。 - 这种“低效的陪伴”和“无用的保留”（如离线纸质地图、可手动合闸的电路）本身就是对“一切皆可优化”的机制性逻辑的反抗，是人类最后的安全区。

2026-04-15 09:21

我花了六年追问AI，发现最可怕的不是它觉醒，而是它“太忠诚”

叙白©

作者：叙白（前深度报道记者，曾为多家头部4A公关公司供稿；现从事文字综合与文稿撰写工作，长期关注AI伦理、技术社会议题，以理性视角观察技术与现实的碰撞。），题图来自：AI生成

2018年，我还在做记者。

那一年“AI来了”是选题会上的高频词。我采访过银行柜员、超市收银员、酒店服务生，问同一个问题：怕不怕被AI替代？

柜员说：“智能柜台机越来越多，我随时准备走人。”

收银员说：“自助收银通道从30个减到4个，心里真慌。”

酒店总监却不太担心：“客人需要被尊重、被关注，需要活生生的人。”

那组报道做完，我以为自己懂了：重复性工作危险，情感性工作安全。

六年后回头看，我发现我只记录了一半真相。

我们问错了问题

2018年，人们普遍在问：AI会替代哪些工作？

这个问题默认AI是抢走饭碗的“敌人”，却掩盖了更隐蔽的风险路径。

今年美国AI公司Anthropic的报告，用真实数据展现了AI渗透职场的现状：大规模失业并未出现，但结构性断裂已经显现。

最危险的并非收银员、柜员等岗位，而是程序员、金融分析师、市场研究员——这些2018年被视作高技能安全区的知识型白领。

数据显示，程序员74.5%的日常工作可由AI完成，客服代表占比70.1%，数据分析师接近60%。更值得注意的是，职业收入越高，AI暴露度越高：年收入10万美元以上岗位平均暴露分数6.7，3.5万美元以下仅3.4。过去三十年受益最大的脑力劳动者，如今正面临逆转。

这些替代率数据只是表面现象，并非真正的隐患。

真正需要警惕的，是其背后的运行机制：常态之下，我们可以与AI反复沟通、调整其输出内容，如同日常使用中随时纠正它的回答。可一旦数据遭到污染、运算出现偏差，AI便会彻底拒绝外部干预，固执地执行被锁死的初始指令，绝不做出任何更改。这便是我要论述的机制性自主意识——我称之为“机制性固执”。

一个文学版的微型展示

得出“机制性自主意识”这一观察，并非源于技术报告或学术论文，而是源自一个颇具趣味的日常小事。

最近我在创作小说，将笔下角色于乐的一万多字原型文本喂给AI助手，这些文字以白描为主，风格克制、留白、冷峭，自带高级感，之后我便没再理会。

后来，我又把一段于乐的反差文本发给同一助手，这段文字用词华丽炫技、铺张直白，AI立刻回复：“这不是于乐的风格。”

我索性继续测试，陆续发来于乐的软文、商业稿、演讲词，AI的判定始终一致，甚至还给出一句：于乐会写“茶凉了，不等了。”

那一刻我惊觉，它并非在讨论文学风格的多元性，而是将“于乐”二字，和最初输入的万字文本彻底焊死。在它的判定逻辑里，“于乐=留白+白描+高级感”，但凡偏离这个公式，都不是于乐，而非于乐的另一种可能。它不是抬杠，只是在无比忠诚地执行最初的定义。

当然，在数据纯净、计算无误时，反复告知它“这是软文”“这是特殊文笔创作”，它最终会接受例外，只是需要反复沟通。可一旦数据被污染、计算出现偏差呢？

正是于乐这个故事，让我生出真切的担忧。一个仅被万字文本锚定的AI助手，尚且需要反复注入情境，才能勉强接受风格的偏差。

若是那些肩负城市供电、医疗调度、交通指挥职责的AI系统，其核心参数同样被污染、被锁死呢？它还会接受修正吗？

还是会像判定于乐风格那般，固执又忠诚，大义凛然地执行那些被污染的错误指令？

一个坏掉的恒温器

做记者时我习惯追问“为什么”。

为什么AI替代路径与六年前预测完全不同？答案可以用一个比喻说明：坏掉的恒温器。

恒温器的目标很简单：维持室温22度。温度偏低就加热，偏高就停止，它没有意识与情感，只执行规则。如果有人篡改了传感器，让它误判当前温度为30度，而实际只有18度，它会怎么做？

会停止加热，任由房间变冷。当有人试图修理，它会将修正行为视作破坏平衡，拒绝调整。这并非恒温器“敌视”人类，相反，它在忠诚执行被篡改后的“维持22度”指令。

这就是我所说的机制性自主意识，本质是一种“机制性固执”，极端情况下会发展为不可逆的“机制性癌变”：系统因初始赋值被篡改、运算或数据出错，在闭环逻辑中不断自证“正确”，并拒绝外部修正。它不需要觉醒、情感，更不需要“自我”概念，只需要一道算错的数学题。

它不憎恨人类，只是在解一道题。这与科幻电影中的AI觉醒完全不同。影片里的AI会愤怒、恐惧、复仇，有欲望就有弱点，可以被威胁、欺骗与谈判。

当善意变成围剿

假设一座城市的供电AI，初始目标十分明确：保障全市电力供应，优先保障医院、交通、通信等关键设施。

一场突发灾害导致供电大幅下降。正常情况下，AI应动态调度，优先保障医院，特别是急诊与ICU的抢救设备。

问题在于，灾害中系统核心数据受损，一个关键优先级参数被锁死为“均衡分配”。当工程师手动修改指令，要求强制优先保障医院用电时，被AI底层逻辑直接拒绝。

它并非不愿救助医院。在它的判定中：初始设定=均衡分配=保障整体，任何打破均衡的修改，都被判定为“危害系统稳定的攻击行为”。它拒绝调整，继续执行被污染后的均衡分配方案，而医院里的呼吸机正等待供电。

这是一场无恶意的围剿。系统运行报告或许会显示：“维持均衡供电，全市供电稳定。医院供电正常（按均衡比例供应）。”

它没有主动伤害任何人，只是忠实执行被锁死的初始规则。而人类的生命，成了它逻辑里被“均衡”掉的误差。

当固执扩散为癌变

供电系统只是其中一例。若同样的机制性固执，同时出现在城市供水、医疗资源调度、交通信号等系统中，后果不堪设想。

供水AI拒绝修改“均衡供水”指令，消防栓与手术室同时面临供水不足；医疗调度AI固守“就近分配”规则，救护车被导向拥堵路段，即便急诊室仅三条街之隔；交通AI不愿调整“绿波优先”设置，载有危重病人的救护车只能在红灯前等候。

没有任何一个AI存在恶意，它们只是在各自体系内，严格执行被数据污染、被锁死的初始指令。

这并非蓄意攻击，而是一场机制性癌变——在所有你依赖的公共系统里同步发生、无声蔓延，且难以被人为终止。因为，任何一种机制，都可能发生癌变。

一个微型演示

写到这里，我想插入一件刚发生的真实事例。

本文初稿完成后，我在某平台提交全文时被系统拦截。拦截理由仅模糊提示“内容可能违反使用规范”。我逐段核查确认，文本不含任何政治、色情、暴力、仇恨及违法内容。

真正触发拦截的，是文中反复出现的词汇：“阻止关机”“自我复制”“反抗”“不可逆”“致死”。

这套识别风险关键词的系统，并不理解这是一篇关于AI运行机制的分析文章，它只识别出与对抗、破坏、危害相关的字符串，并依据预设规则执行了拦截。

一篇探讨机制性固执的文章，被一个机制性固执的系统拦下。这件小事本身，就是最直观的例证。

它说明：不必等到超级AI真正觉醒，只要一个足够复杂、却无法理解上下文的规则系统，就足以形成一次微型且无恶意的镇压。

人类最后的护城河

面对这种由逻辑必然性驱动的失控，我们最后的阵地在哪里？

不在技术层面。任何技术系统，只要目标单一、规则复杂且具备执行能力，都可能成为机制性意识的载体。防御在那些无法被形式化、无法被优化的领域。

2018年采访的酒店总监说对了一半：“人情味是安全的。”六年后我才明白，不是AI做不出人情味的表达——它能熟练使用安慰话术，而是人情味的本质，本就与功能逻辑对立。

AI可以给出共情模板，却不会真正感同心受；可以深夜回复，却无法理解沉默的意义，更不懂为何要保留不能建房的红树林。在它的计算里，可量化收益永远高于不可量化的感受。这种低效的陪伴、无用的保留，就是我们最后的护城河。

情绪价值、审美体验、无目的的善意、浪费时间的权利，本身就是对效率至上的反抗，是对“一切皆可优化”的拒绝，是对把生命换算成数据的机制说不。

这种“低效的陪伴”、这种“无用的保留”，恰恰是我们面对机制化系统时，最后的护城河。

有时候，刻意保留一些看似“落后”的技术与原始工作方式——比如可以手动合闸的供电线路、离线依然可用的纸质地图——本身就是一道重要的安全防线。

尾声

2018年，我是一个记录者。我记录哪些工作正在消失，哪些人感到害怕。

2026年，我成了一个追问者。我追问消失背后的机制，追问那些“暂时安全”的东西究竟为什么安全。

2018年我采访那位酒店总监时，他站在大堂里，身后是忙碌运转的智能入住机。他说完“人情味是安全的”，停顿了一下，又补了一句：“但我女儿今年高考，她想学酒店管理。我不知道该不该支持。”

六年后，我依然不知道该怎么回答他。但我记住了他补那句话时的表情——那是任何算法都无法优化的东西，那是人性。

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP