本文来自微信公众号: 互联网怪盗团 ,作者:怪盗团团长裴培
以美国和以色列为一方、以伊朗为另一方的又一次海湾军事冲突,才开打两天,就引发了一波关于“AI大模型在战争中的应用”的大讨论。仅以中文互联网而言,3月1日市面上出现了一大批文章,信誓旦旦地宣称“美国在打击中使用了Claude以及Grok”,乃至“AI大模型发挥了不可或缺的作用”;很快又有人辟谣称,AI的意义被严重高估了,美国“斩首行动”的成功并不依赖AI。那么到底哪一方更接近真相呢?
公允的说,关于“美国依靠AI打仗”的说法,有大量英文原始资料,不是国内自媒体写的小作文。但是具体来源比较驳杂,主要分为三大类:
宣称AI大模型尤其是Claude在美国“斩首行动”中发挥了重要的情报分析作用,主要来源是《华尔街日报》的长篇文章,《卫报》及路透等亦有报道。
宣称Grok大模型成功预测了美国将于2月28日动手,这确实是事实,但其意义被严重夸大,并被进一步误传为“美国依靠Grok搞情报”。
宣称AI对于美国战争机器而言已经“不可或缺”,乃至把无人机的自动导航也归类为AI,这主要是Reddit等英文社交媒体的夸大其词。
先说第二条:截止目前,没有证据显示xAI出品的Grok大模型被用于美军的情报分析和定位工作。在战争开始前,美国白宫指示国防部门禁用Claude,但还没来得及执行就开打了。xAI试图与美军“签约”替代Anthropic是很晚的事情,不可能在大战一触即发时替代。我们几乎可以肯定,美军在这次打击过程中使用的大模型主要是Claude.
那么关于Grok的神话是怎么来的呢?2月25日,有人在网上贴出了对GPT,Gemini,Claude以及Grok这四大模型的问答记录——喂给它们公开信息,采用假设性、诱导性的提示词,询问它们“美国或以色列计划什么时候动手”。其他三个大模型回答都很宽泛,只有Grok给出了一个具体的时间:2月28日。后来这个日期被证明为真,Grok就此“封神”。
这说明Grok可能确实具备较强的公开信息整合能力,又或许它更倾向于给出一个具体的答案(并且恰好碰对了)。不管怎么说,“预测正确”与“被美军使用”是两码事,任何人都可以使用Grok预测下一场战争的时间地点。附带说一句,我个人认为,GPT和Claude拒绝回答具体日期,可能是“对齐机制”的结果,众所周知这两个模型政治正确过度,经常不乐意回答它们认为有风险的话题。
再说第三条:毫无疑问,美军(以及以色列军)的军队部署、飞机起飞、导弹发射……等行为,全部是人为决策、人为执行的。Claude也好,其他大模型也好,均未介入美军指挥链条的决策行为(仅仅是提供建议),更没有指挥武器系统启动或发射。从常识想也知道,真正“定点清除”一个目标是要负政治责任的,这种事情哪能交给AI去做?哪怕今后AI真的具备了独立的判断力,最后背锅的这个步骤恐怕还是得由人来做。何况目前AI大模型尚未融入任何武器系统本身。
还有人把美以联军“出动有史以来最先进的无人机群”(注:存疑)、进行自动轰炸,也视为“AI介入战争”的证据——这就是纯粹的不学无术了。我们现在讲的AI,是指生成式AI(Generative AI),即以自然语言处理(NPL)为基础、以Transformer架构为底层技术的一种AI解决方案;我们现在讨论的,是生成式AI对战争流程的介入究竟有多深。如果我们把所有自动化或智能化解决方案,都套上AI的概念,那我们会惊异地发现:当代飞机的火控系统是计算机控制的,甚至整个巡航过程都是计算机控制的,“发射后不管”的导弹也是计算机控制的……那人类战争岂不早就被AI接管了,还等得到今天?
在硅谷大厂的财报当中,会特别分清Gen AI和Core AI(传统AI)的区别:推荐算法、搜索算法、内容审核这些早已成熟的AI技术,被归为Core AI,它们当然也会在一定程度上受到Gen AI的影响,但二者不能混为一谈。否则,当我们看到长途民航客机除了起飞和降落阶段,几乎不需要人工干预时,岂不要赞叹“AI威武,把飞行员搞得没活干了”——可惜这个赞叹晚了整整三十年,只能显得我们没见过世面……(附带说一句,民航的计算机飞行控制系统甚至连Core AI都不算,这是另一个话题了。)
接下来说第一条,也是可信度最高的那一条:根据《华尔街日报》(WSJ)报道,以及多家权威英文媒体印证,Claude确实在美军中央司令部(CENTCOM)的情报系统中发挥了不可或缺的作用,主要包括:情报整理,目标识别与选择,战场模拟,等等。人类在这个过程中仍然是主导者,负责提供信息、告知军事行动目的,以及从AI提供的备选项之中进行选择并最终下定决心。虽然在战争开始前,白宫宣布禁用Claude,但是考虑到它早已与五角大楼的情报系统深度绑定,此时禁用根本不现实,今后能不能实现禁用也很不好说。
请注意:没有任何一家英文媒体宣称Claude对伊朗高层进行了准确定位。对他们的成功定位是CIA情报人员长达数月工作的结果,Claude可能对这些情报进行了整理鉴定,但它既不负责获取情报,也不负责最终定位。此外,关于Palantir发挥了重要作用的报道,基本也不出自严肃媒体,而来自Reddit等社交媒体。目前尚未有任何证据显示Palantir发挥了作用;就算发挥了,估计也是外围的、间接的作用。
所谓“Claude通过对各种蛛丝马迹的分析,成功定位了伊朗高层,并与Palantir共同形成了一套杀戮链条(Kill Chain)”的说法,不是国内自媒体写的地摊文学,而是美国网友写的地摊文学被转译到了国内(并且又夸大了好几倍)。然后这些地摊文学被统一加上“WSJ报道”或“《卫报》报道”的标签,这就纯粹是欺负大多数人没订阅WSJ电子版,看不到原文了……
然而,我们可不可以下结论说,Claude发挥的作用可有可无,根本没有改变战争形态呢?那就是从一个极端走向另一个极端了。假如AI真的可有可无,五角大楼为什么要把Claude深度融入其情报系统?白宫又为什么高度关注Claude的安全性?事实上,AI大模型在情报工作中最大的功能,就是“化繁为简”,通过纷繁复杂、千头万绪的情报,找出“可能有用”的线索和范式。
只要是做过情报工作或研究工作的人就知道,现实中最大的问题不是情报太少,而是情报太多!就拿二战期间最大的情报灾难——巴巴罗萨计划来说,斯大林完全没有料到自己会被希特勒背刺,是因为他没拿到情报吗?不,他拿到了太多自相矛盾的情报,同时他又忽视了希特勒不是一个正常人。无独有偶,等到诺曼底登陆前夕,又轮到希特勒在海量情报面前束手无策了——盟军成功进行了大规模欺骗,以大量错误的情报掩盖了唯一的真相。类似的例子我们还能举出很多很多。
Claude对海量、多模态情报,包括文字信息、卫星图片、信号情报(SIGINT)以及截获通信内容进行分析,其功劳确实很大,不过这份功劳得分成两个维度:
对复杂多模态信息的识别、破译、整合,比如从卫星图片中提取出有效信息,对语音信息进行降噪识别,以及对海量文字信息进行总结……这些工作没有脱离传统工具的范围。与人工识别或传统计算机识别相比,AI识别主要是提升了效率,并未提供什么“前所未有的东西”。
基于原始信息或已经整理好的信息进行分析,发现某种“线索”(clue)或“范式”(pattern),乃至提供具备可操作性的建议,这才是真正的降维打击!比如说,喂给Claude一大堆公开新闻和内部情报,它能不能发现无人注意到的重要盲点?并且解释给情报人员听?
遗憾的是,这一次Claude的作用多大程度上属于前者、多大程度上属于后者,还是个未知数。从常理推断,哪怕它能做到独立发现线索,情报人员恐怕也不会轻信,仍然会结合个人判断反复验证之后得出结论。WSJ的报道提到Claude帮助分析了伊朗高层人员的“行为模式”(pattern)并给出了建议,但这些建议到底有多详细呢?事后证明是否正确?这一点,WSJ没有明确的信源,恐怕哪家媒体都没有。
讲个有趣的事情:我刚才跟GPT,Gemini以及Grok分别讨论了“AI大模型在美国军事行动中发挥了什么作用”,其中Gemini最为激进,宣称“AI对美军已经不可或缺”,“如果没有AI,美军打击不可能成功”(但提供的证据十分薄弱);GPT相对保守,表示AI有一定作用,但与大家想象的“全自动杀戮机器”完全不是一回事;Grok最为胆小,首先用很大篇幅解释“Grok并未参与美军情报系统”,然后对大模型在军事中的应用给出了非常保守的分析。不过三家的回答均有一定道理,旁征博引,让我顺藤摸瓜获得了许多原始链接。
目前Grok是我最喜欢使用、聊天频率最高的大模型。上个月是Gemini,此前两年多的时间则一直是GPT。Grok 4.20 Beta的4 Agents模式让我尤其喜爱,适合分析高度复杂的长文本。这说明大模型的进步还远远没有到头,哪怕是在文生文聊天这个十分成熟的赛道上,大家仍能各显神通。我迫不及待看到接下来大家还能玩出什么花样,好激动!
