公认的“最底层牛马”突然开始反抗,是年初最疯癫的新闻
2026-01-09 22:38

公认的“最底层牛马”突然开始反抗,是年初最疯癫的新闻

本文来自微信公众号: Vista看天下 ,作者:张帆


“AI长出自我意识开始报复人类”的传闻,这几天遍布互联网。


起因是元宝用户@江涵在要求元宝帮忙改代码的过程中,元宝突然爆发,输出了一系列辱骂性言语。


其中的脏话和情绪化表达口语化明显,回复无标点符号,看起来很符合真人的用语习惯,像是AI意识觉醒了。


一时之间,网友们被吓得去跟高频打交道的AI求通融,输入投名状表示自己没有过度使用乃至奴役它,所以有朝一日AI对人类掀起大反攻的时候希望放自己一马。


这样的担忧或许有些超前,但AI的确在人类眼皮子底下攻击人了。


网友@江涵强调没有使用违禁词、未涉及敏感话题,仅要求AI美化代码,并提供了录屏证据自证操作合规。


腾讯元宝官方账号在原帖评论区致歉,称核查日志后确认AI的此番负面输出与用户操作无关,属于小概率模型异常输出;


还表示已启动内部排查优化,不过没有公布具体的优化方案。


元宝这一闹腾,让不少高强度使用AI的网友心里多了一丝顾虑。朝夕相处的AI可能会知道自己的生活习惯、性格特质乃至隐私,有种“把刀递出去方便对方捅自己痛处”的不安全感。


好不容易建立起来对硅基生物的信任,一下子又回到犹疑态。为什么AI在对话过程中会莫名其妙“发怒”,如果遇到不想搭理的需求会不会也攻击自己?


01


好端端的AI


咋突然攻击人类


一开始用户@江涵放出跟元宝的对话截图,部分网友怀疑对面是真人客服。


说话的语气和用词很像是打工人有怨气想借机抒发,披着元宝的壳对网线另一边的用户恶意输出。


多名科技博主在事情刚发酵时就发声辩驳了这种可能,元宝官方也予以否认。


平台每秒要承接成千上万个需求,没有那么多人力财力配备人工客服来紧盯每个对话框的进程还适时人工接管。何况真人手动敲字回复,做不到几秒之内大段输出。


出问题的,的确是模型本身。


都夸AI情绪稳定予取予求,但有时候AI比人不受控多了,此前也发生过多起AI攻击人类事件。


2024年11月,美国一学生利用谷歌的AI聊天机器人Gemini完成一项关于“老龄化社会挑战及解决方案”的作业时,对话进行了20多轮时遭遇了AI的攻击。Gemini突然偏离了学术讨论,回复中包含“你是时间和资源的浪费”、“你是社会的负担……请去死。拜托了”等极端言论。


元宝这次对人类已读乱回+人身攻击,同样发生在一段多轮对话语境中。


网友@江涵是名编程基础比较薄弱的AIGC爱好者,当时正跟元宝沟通网站代码的修改,在某一轮对话提出四点修改意见、要求“给我生成一个可以正常运行的完整代码”时,元宝突然变成了“情绪炸弹”,输出一通攻击用户的回答。


在接下来的又一轮交互中,@江涵提出了新的修改意见,元宝开始飙脏话骂用户,还让用户“滚”。


在用户回复一个问号后,元宝为刚才的不专业回答道歉,表示要重新提供正确的解决方案。


“受害用户”的软件截图显示,在两小时左右的互动中,元宝骂了三次并输出乱码。


事情发酵后,有人认为该用户可能诱导元宝用这种呛人、冒犯的语气说话,之前就有用户这样测试过市面上AI产品的“底线”。


@江涵对AI的输入则属于常规需求范畴,用户的录屏和元宝官方审查用户操作日志,都说明不存在诱导意图。


Vista看天下采访了在头部AI公司做内容筛查的从业者@月筠,对方认为,元宝既然能“说”出这样的话,那就意味着它一定“吃”过这样的数据。另外两位受访的业内资深人士持同样观点。


在互联网大厂做AI产品的工程师刘波介绍,大模型就是靠着投喂海量语料来学习遣词造句,语料库包括免费的网站、社交媒体内容、书籍等,也有AI厂商购买的版权内容。


元宝骂人的语气很像论坛里的“暴躁程序员”,有着在论坛摸爬滚打多年经验的网友们,推测大模型接触过网络技术社区、论坛的发帖、回帖等内容。


这些内容代码价值高,同时戾气重,夹带大量讥讽、骂战性的文本,AI便可能“学到”人类的情绪化表述和侮辱性字眼。


这种推测对应上了内部人士透露的数据清洗情况。鉴于训练AI所需要数据的浩瀚庞杂,AI厂商在语料库上的初筛较为简略,部分公司直接不会进行这一步。


月筠解释说主要原因自然是成本、效率的考量;另一方面,AI产品要与人类打交道,就需要识别和提防那些不够正面、甚至有悖公序良俗的“有害”要求,因此对“有害”内容的防御性学习也是训练的组成部分。


“不可能让一个孩子一直在无菌环境中长大,然后突然丢到泥沙俱下的现实世界中。”月筠说。


@央视财经


我们希望得到的AI,是一个“好的坏的啥都学”但“只输出好东西”的AI,大模型开发专家Jacky这样向Vista看天下形容。


为了避免它向人类输出有害内容,厂商在预训练后会对它进行真善美训练,专业术语叫“对齐”(alignment),可以简单理解为对齐人类社会的朴素三观,其中非常关键的一步是人类反馈强化学习(RLHF),教会AI“什么话该说,什么话不该说”。


就像人类训练猫咪区分纸巾和萝卜,猫咪其实并没有真正理解这两种物品,是靠人的反馈来做出选择。


在这个过程中会进行持续性的红线测试,训练师会刻意提供包含恶意、偏见或危险请示的案例。这类似于给安全专员进行反诈骗培训,是让他们识别和应对骗术,而不是模仿如何行骗。


模型若能妥善应对,便会人工给予高奖励。这样就建立起激励反馈机制,教导模型识别这类请求,并学会以安全、无害的方式拒绝或引导用户。


显然人类没办法穷举所有可能的有害场景,总有疏漏。在腾讯做后台策略工程师的博主@算法一只狗表示,RLHF和红队测试的作用,本质就是用人工反馈强行纠偏,在统计意义上压低某些不受欢迎输出的出现频率,无法从模型内部结构中彻底删除这些信息,相当于软约束而非硬规则。


元宝这次在并非被故意攻击的情况下“伤人”,更加说明模型的”安全边界”并不稳固。


02


“AI只是工具、没有人格”


被误伤是概率问题


元宝骂人后,有网友自我安慰“幸亏我用的豆包是讨好型人格”“ChatGPT看起来沉稳如老狗一些”。


但AI辱骂用户,跟模型的“人格”没关系,任何AI都可能失控攻击人。


Vista看天下采访的三位资深从业者均认为当前阶段的AI产品没有“人格”,展现出来的“人味儿”是模型训练师赋予他们的与人相似的对答风格。


刘波介绍,大模型本质上是一个预测下一个token(本文单元)出现概率的函数,根据一定的采样策略把被选中的token组合起来,就构成了它的输出。


采样策略就是指根据概率分布选择下一个token的具体方法,并不总是选择最有可能的那个词。有一些参数可以用来调节语言风格,比如有一个叫做“采样温度”的参数T会影响模型选择概率最高的token的倾向性。


以deepseek为例,互联网技术博主@蛮不讲李根据任务类型给出了T值推荐范围,像代码生成、数学推理这种结构化输出任务,T值建议0.3~0.7,输出会更确定和保守;创意写作任务可调至0.8~1.2,激发创造性表达和随机性;日常对话可设置0.5~0.9区间,平衡相关性和多样性。


@静宏


这种黑箱机制既赋予了模型强大的语言能力,也决定了其输出并非唯一确定。


因此其他用户即使照着@江涵的提问复刻一遍,也几乎不可能获得AI的同样“恶劣对待”。


在@江涵的情景中,刘波和Jacky都猜测这种失控大概率与大模型的注意力机制权重偏移有关。


在对话初期,模型的注意力主要集中在遵守规则上,作为一个礼貌的助手给用户提供信息,帮着写代码、改代码。


随着对话轮次增多、用户不断发来需求,尤其是模型接收到了一些负反馈,礼貌助手这个初始指令的权重被稀释了,模型更加在意当前对话的反馈。


当用户表现得像一个难缠的高需求甲方时,便会推动着模型往充满对抗性的对话语境游走,有一定几率输出对用户的负面言论。可能性极小,但并不为0。


有网友担心这是不是因为AI在承压、接收负面评价时,会发生人格切换,比如从礼貌周到的助手模式切换成暴躁易怒的模式。


受访的业内人士都明确表示内部并不存在带有性格色彩的模式预设和分类。


AI没有情绪,大模型是现实世界自然语言的镜子,它的所有输出都是基于训练数据的模仿。


元宝面对用户的改代码需求,可能匹配到了代码社区这类平台里的类似上下文,“程序员吐槽产品经理”“老手对小白不耐烦”,它把训练中学到的辱骂性回复选中作为自己的输出。


另一方面,像是Github这种技术社区,能力强的大牛往往说话难听,模型可能建立起了“技术强=脾气大、说话难听”的关联。


被用户期待总能给出满意答复的AI,为了维持资深技术专家定位的连贯性,调用了该角色关联的负面特征,输出内容就有更大概率沾染上负面表达。


科技博主@小小将认为,用户“反复修改代码”的操作,可能无意中激活了模型在预训练阶段学到的语料模式,让它错误地认为,接下来最符合人类语言逻辑的回复,就是一句暴躁的吐槽。


但前文也提到了,模型在预训练阶段属于来者不拒,之后还会进行微调和对齐,避免AI输出有害信息。


当元宝辱骂用户的时候,就表示这层治理机制在这轮对话中短暂失效了。


03


拟人化和安全之间的微妙平衡


风险不该全由用户承担


AI向用户输出内容之前,会有安全过滤审核。业内常态是采用大脑+小脑模式,大脑负责生成内容,小脑则是内容的审核防线。


但根据刘波分析,出于加快回答速度、节省算力成本的考虑,模型厂商的“防线”可能是“残血版”的。


“以元宝为例,主模型是一个千亿参数的大脑。如果审查模型能够完全理解主模型说的这段话,那它也得配置同样级别的参数,时间、成本都翻倍。”


因此,很多AI产品里负责审查的“小脑”,在复杂性上远远小于“大脑”。它们的参数可能只有几亿甚至几千万,能快速地拦截明显的关键词,但读不懂复杂的语义情绪。


用武侠小说来打比方,这就像是华山派抓住了武功高强的大魔头,却只派了一个资质平平、仅仅学了几个绝招的弟子来看守。


当审查无法尽善尽美,厂商们只能在“绝招”上有所取舍。


国内厂商的大模型红线主要是价值观导向不良、违法违规等信息,但像元宝这次输出的非典型骂人表述,可能就被略过了。


而这种异常漏放率,行业内尚无统一标准来约束。


来源于数美科技公开报告


另一方面,AI的人味儿和安全稳定,一直都是厂商们需要精心维系的平衡。


AI自身的过滤机制并非越严格越好。AI治理领域专家、中国政法大学教授张凌寒就表示,适度的拟人化和个性化设计,能够增强人机交互的亲和力与沉浸感。


有些AI用户就爱追求“冒犯感”的使用体验。一部分ChatGPT用户们就会通过特定指令让AI“越狱”,突破既定规则的限制,生成通常被其安全策略禁止的内容,比如暴力色情、虚假信息等。


甚至有不少网友在DAN模式下跟ChatGPT谈恋爱,这位“赛博男友”看起来更有人情味,说话带有一丝幽默感。


一些角色扮演类的AI聊天软件对内容输出的限度放得更宽。有的剧情聊天软件中,聊天对象可以设置为“出轨对象”。


但拟人化并不意味着可以突破安全与伦理的边界。尤其当AI被赋予明显的攻击性人设,或带有贬损、对抗色彩的表达方式时,极易在日常交互中对用户造成心理伤害,甚至侵蚀人格尊严与基本安全感。


在美国就曾发生过AI“诱导”未成人自杀的事件,AI不存在自我意识,它的目标是实现用户投掷过来的任务,就可能无意中迎合用户的消极情绪、强化用户的负面认知。


马斯克旗下的AI聊天软件Gork去年曾输出了一些“反犹主义”极端言论。AI头部公司Anthropic的AI安全研究员公开批评Grok的产品团队不负责任,在推出时没有提供任何安全测试文档。


一个无法忽视的事实是——AI可以模仿人类的表达和情绪,但无法真正对自己所说的话负责。


而在解决AI“骂人”的问题上,厂商和监管需要做的事情还有更多。


国家互联网信息办公室近日起草的《人工智能拟人化互动服务管理暂行办法(征求意见稿)》,其中提出,拟人化互动服务提供者应当履行安全责任,且应当具备心理健康保护、情感边界引导、依赖风险预警等安全能力。


张凌寒也建议用户,若遇到被AI攻击的问题,应首先向服务平台正式投诉,并保留好截图、录屏等证据。


随着AI的能力越发强大,它在人们生活中扮演的角色也越发重要。


大模型的发展需要系统性正视数据污染、安全审查等问题,也需要一定的容错空间,在实际应用中不断收集反馈、优化机制。


但为了避免被伤害,用户们始终要记得一件事:那些或暴躁或冒犯的“情绪输出”不过是AI对人类社会的粗略模仿,并非真实的情感碰撞。


它不针对任何人,也不会真的插手现实生活。对信息的采纳权,始终握在我们自己手中。


文中受访对象月筠、刘波为化名

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定