谷歌DeepMind新研究指出，Transformer存在拓扑层面的状态追踪缺陷，现有思维链仅为治标补丁，主张用循环架构改进以实现高效长时认知。 ## 1. Transformer的核心策略与架构性缺陷原初Transformer将完整对话历史装入上下文窗口，靠注意力机制检索历史信息，解决了RNN难以记忆远距离信息的问题，催生了GPT、Claude等一系列主流大模型。该架构存在根本性的「状态追踪」缺陷：每整合一条新信息，更新后的内部状态就会被推送到更深网络层，网络深度有限，耗尽后就无法可靠追踪状态，更新结果常埋得太深，后续处理无法访问，这是架构性问题而非偶发幻觉。 ## 2. 思维链仅为治标补丁，成本高昂思维链让模型将深层状态输出为可见文本再重新读入，把深层信息搬运到处理表层，能缓解状态追踪问题，但治标不治本。该方案会占用大量上下文窗口，消耗大量计算资源，推动推理成本大幅飙升，对于人类可自动完成的基础推断，这种外显思考完全是冗余消耗。 ## 3. 现有不同循环改进方向的效果差异论文提出将研究重心从外显思维链转向隐式激活动态，用循环架构补充或替代纯前馈结构，并对循环Transformer做了体系分类。沿深度方向的循环架构（如循环Transformer、通用Transformer）仅放缓了状态推深的速度，没有解决根本问题；沿序列方向的循环架构，每处理新输入会显式传入前一步状态向量，结合了注意力优势，可实现无限期状态追踪。 ## 4. 下一代大模型的发展方向代表序列循环方向最新进展的DeltaNet改进版，保留并行训练优势的同时，状态追踪能力超越标准Transformer，在大规模语言建模测试中表现出色。下一代基础模型需要超越「检索历史文本」的现有策略，构建流动、持续演化的跨时间尺度现实表示，这是实现稳定连贯长时认知的必经之路。

2026-06-17 19:50

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本

机器之心

本文来自微信公众号：机器之心，编辑：Panda，作者：关注AI的

如今，思维链（CoT）已然成为前沿模型的标配。其机制并不复杂：用户提一个问题，模型会先输出一大段内部推导过程（有时候长达几千个词），然后才给出正式答案。

然而，随着模型能力的提升，思维链也越来越长，成本也就水涨船高，越来越贵。社交网络上，我们经常能看到AI重度用户望账单而兴叹，悲钱包之空瘪。

Claude Fable 5发布后，前沿模型的使用成本更是惊人，以至于让一些用户发出了感叹：「只有开赌场和搞诈骗的才用得起」。

但是，或许，这条不断提升思维能力的路可能本就走错了方向。

近日，一篇来自谷歌DeepMind的论文《Transformer的拓扑麻烦》以一个看似简单的问题，撼动了整个行业的底层逻辑：Transformer架构本身，就不擅长追踪状态；而「思维链」不过是在给这个结构性缺陷打补丁。

论文标题：The Topological Trouble With Transformers
论文地址：https://arxiv.org/abs/2604.17121

值得注意的是，这篇论文的第一作者Michael C.Mozer是DeepMind的研究科学家，也是循环神经网络领域的资深研究者。他在1991年就提出了处理多尺度时序结构的循环网络模型，并在整个1990年代深入研究过RNN的梯度消失问题。正是这些工作，在当年埋下了LSTM（长短期记忆网络）诞生的伏笔。

几十年后，他重新审视这个问题。这一次，他的对手换成了主宰整个AI时代的Transformer。

Transformer为何如此强大，又有何隐患？

要理解这篇论文，先得明白Transformer是如何工作的。

原初Transformer架构

我们可以想象一座图书馆。每次有人提问，图书馆员不会「记住」之前说过什么，而是把所有对话记录摆在桌上，重新翻阅一遍，然后作答。

这就是Transformer的核心策略：把整个对话历史都装进「上下文窗口」，通过「注意力机制」检索过去的信息。这个策略非常有效：它绕开了早期循环神经网络（RNN）难以记住远距离信息的老问题，并由此催生了GPT、Claude、Gemini、DeepSeek等一系列大模型。

但这个策略有一个根本性的缺陷，论文称之为「状态追踪（State Tracking）」问题。

所谓状态追踪，是指在对话或推理过程中，模型需要维护一个不断更新的「内部状态」，比如对话进行到哪一步、当前场景里哪个人在哪里、一道逻辑题现在推理到哪个环节。

人类在思考时，这种追踪是自动完成的，往往无需刻意思考。但对于Transformer来说，每整合一条新信息，这个「内部状态」就必须被推送到网络更深的层次，而网络的深度是有限的，一旦耗尽，模型便无法继续可靠地追踪状态。

论文用一个直观的比喻解释了这一点：把Transformer想象成一栋楼，信息从底层流向顶层。每处理一个新输入，模型的「状态表示」就得搬到更高一层。楼层不是无限的，搬到顶了，就搬不动了。

「思维链」是个变通，但非解决方案

论文中，谷歌DeepMind的作者们用了几个令人印象深刻的例子，展示了Transformer的状态追踪失效有多么日常。

第一个例子，是让模型扮演「猜数字」游戏：由模型心里默想一个1到100之间的数字，用户来猜，模型只回答「更大」或「更小」。这个游戏的关键在于，模型必须始终记住自己想的那个数，并对每次猜测给出一致的反馈。然而，论文展示了Gemini 3（Fast）的失败：

用户猜60，模型说「更小」；用户猜41，模型说「更小」；用户猜70，模型却说「更大」——前后矛盾，破绽立现。

更耐人寻味的是，即便是加入了「思考」模块的Gemini 3 Thinking，也出了岔子。模型在思考阶段明确写下「我选定了数字42，60比42大，所以应该回答更小」——但当用户猜42时，模型依然回答「更小」，等于忘了自己刚刚说的话。

第二个例子，则是经典的「河岸还是银行？」歧义测试。同一个英文单词「bank」，可以是河岸，也可以是银行。模型在第一轮正确判断弗雷德去的是河边，但第二轮被问到「他那里有没有ATM机」时，却改口说「有，大多数银行旁边都有ATM」。前后矛盾，毫无察觉。

这不是偶发的「幻觉」，而是架构性缺陷的必然结果。论文通过神经网络可解释性工具Patchscopes观察到：模型对「bank」的语义消歧，发生在网络第六层（较深位置）；但当模型处理后续输入时，浅层（第1至5层）根本「看不到」这个消歧结果，只能基于粗浅的词频关联（「银行」→「ATM」）给出反应。

状态确实被更新了，但更新的结果埋得太深，后续处理无法访问。

目前主流的解决方案「思维链」的原理，是让模型把那个埋得很深的状态「打印出来」，变成可见的文字输出，再重新读入。这样，深层信息就被「搬运」到了新一轮处理的表层。

这确实有效，但代价也大：大量计算被用于输出这些「中间思考」，上下文窗口被大量占用，推理成本随之飙升。

对此，论文中表示：「对于人们自动完成、毫无意识的推断，比如判断一个词的含义，根本不需要诉诸繁复的外显思考。」

如何解决：重新拥抱「循环」

论文的核心主张是将研究重心从「外显思维链」转向「隐式激活动态」。换言之，用循环（Recurrent）架构来替代或补充当前的纯前馈（Feedforward）结构。

论文为此建立了一套分类体系，将各类「循环Transformer」按两个维度划分：循环发生在哪个轴（深度方向还是序列方向）、每个循环步骤处理几个输入词。

在「深度方向循环」上，研究者们已探索出「循环Transformer」（Looped Transformer）、「通用Transformer」（Universal Transformer）等架构，允许同一组网络层被反复使用。但论文指出，深度循环依然没有解决根本问题：状态表示仍然会随着序列增长而被推向更深层，只是慢了一点。

真正能做到「无限期状态追踪」的，是沿序列方向的循环，即每处理一个新输入，都将前一步的状态向量显式传递进来。

这与传统RNN的做法一脉相承，但结合了现代注意力机制的优势。论文列举了MAMBA、RWKV-7、DeltaNet等状态空间模型（SSM）和线性注意力架构，认为它们代表了这条路线的最新进展。

特别值得关注的是DeltaNet的改进版本：通过将特征值范围扩展至负数，它在保留并行训练优势的同时，实现了超越标准Transformer的状态追踪能力，并在大规模语言建模测试中展现出竞争力。

论文还提出了几个前景看好的研究方向：在更粗粒度上引入循环（例如以句子为单位而非词元）；利用残差连接带来的表示对齐来降低循环训练成本；以及分阶段训练策略——先用标准前馈架构预训练，再引入循环机制进行微调。

下一代大模型，需要会流动的记忆

「思考」这个能力，如今已成为顶级AI产品的标配卖点。但论文给出了一个清醒的提醒：现在的「思考」，更像是用语言在黑板上演算，而不是真正的内心动态。

一个人读一本小说，不需要每翻一页就把前面发生的事「朗读出来」，才能记住故事线索。这种背景性的、流动的状态维护，对人类来说几乎是零成本的。

而大模型现在做不到这件事。

论文的结论认为，下一代基础模型必须超越「反复检索历史文本」的策略，转而构建「流动的、持续演化的现实表示」，横跨多个时间尺度。这不只是效率问题，而是通向真正稳定、连贯的长时认知的必由之路。

从Transformer的「记忆检索」到真正的「状态维护」，这条路还很长。但现在，有人已经看清了地图上那道弯。

AI原生产品日报频道: 前沿科技

机器之心

这里本来有条个人简介

认证作者

已在虎嗅发表 455 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定