本文来自微信公众号: 心智观察所 ,作者:心智观察所
读不了太长的文本,是主流大语言模型的共同弱点。上下文的长度过长,AI的记忆就会出现混乱,答非所问,或者反应迟缓,甚至拒绝处理。究其原因,便在于主流大语言模型的架构本身面临的数学瓶颈:负责理解文本的Transformer的计算量随文本长度呈平方级增长。也就是说,文本长度翻倍,算力需求翻四倍;文本长度翻三倍,算力需求翻九倍。到了百万级Token(约合两三部《三体》的体量),计算量直奔万亿次,再强的GPU也顶不住。
大多数商用模型的上下文窗口因此卡在了128K到200K Token之间。这个数目听来不小,可一旦需要分析一整年的客服工单、装有几百个文件的代码仓库,或者一份300页的并购协议,模型就算不动了。
近日,初创公司Subquadratic宣布他们打破了这个瓶颈。
这个瓶颈是什么?首先,AI在阅读一个文本时,必须将每一个词(Token)与文本中的其他词彼此对照一下,计算它们之间的关联。有n个词,大概需要算n²次,即二次方的增长速度。处理100万个词,就需要计算大约100万×100万=1万亿个词与词之间的关系,即便用最先进的GPU,单次推理也需好几分钟,成本达到几十乃至上百美元。如果扩展到1200万个词,那就是144万亿次,在经济上已经不大可行。而Subquadratic新推出的SubQ模型则大大削减了计算的次数。

AI如何读懂一句话?
我们可以解剖一个最简单的句子:“动物没过马路,因为它很害怕。”这话很好理解。“它”指的当然是“动物”,不是“马路”。但既没眼睛也没常识的AI怎么理解?第一步,AI把文字变成数字。每个大语言模型内部都有一本巨大的词典,其中每个词(Token)对应一排固定长度的数字,比如:动物=[0.8,0.1,0.3,0.9],马路=[0.1,0.9,0.2,0.3],它=[0.6,0.4,0.8,0.5]。这一排数字叫向量,其中的每一维度代表某一特性,相当于这个词在数学空间里的经纬度坐标。“动物”和“马路”在“是否有生命”这个维度上的数值差距很大(0.8 vs 0.1),机器一看就知道它们不是同类。光有词向量还不够,因为在“狗咬人”和“人咬狗”里,“狗”和“人”各自的向量还是那个向量,模型分不清谁咬了谁。所以必须给每个词贴上座位号,这叫位置编码。此后,每个词变成了一个携带自身坐标和位置的数字包裹,列队进入了模型真正的核心区域Tranformer(转换器)。
接下来的一步是所有语言理解的起点:把离散的符号,变成连续的数学对象。Transformer要给每个词造三张身份牌。这三张牌分别叫Q(Query,查询)、K(Key,键)和V(Value,值)。Q代表“我在找什么?”,K代表“我是什么?”,V代表“我带了什么具体信息?”造牌的方法很简单:词向量分别乘以三个不同的矩阵。这三个矩阵是模型在训练阶段自学出来的,对每个词来说都一样。同一个词向量,乘以三个矩阵,映射成三个完全不同的向量。以“动物”为例:Q可能是[1.0,0.0,1.0,0.0](我在找一个能做动作的主语),K可能是[0.9,0.1,0.8,0.2](我是有生命、能移动的实体),V可能是[0.2,0.7,0.5,0.1](我身上具体的信息是“四条腿、毛茸茸”)。三者用途不同,Q是拿出去提问的,K是供其他词匹配的,V是等着被提取的。同样,“它”也生成了自己的Q【它】=[1.0,0.0,1.0,0.0],在找“有生命的主语”。
“它”拿着自己的Q【它】,要去跟句子中所有其他词的K做一次关系测试。这个测试在数学上就是两个向量的点积。先跟“动物”的K做测试:1.0×0.9+0.0×0.1+1.0×0.8+0.0×0.2=1.7。再跟“马路”的K做测试:1.0×0.1+0.0×0.8+1.0×0.1+0.0×0.9=0.2。1.7比0.2大得多。“它”跟“动物”之间的亲密度,远超跟“马路”的。
随后利用Softmax函数,将Q·K的各个点积转化为归一化的权重,称为注意力权重,对于“它”一词而言,“动物”占据大约68%的权重,“马路”只占据32%的权重。如上所述,每个词都有V,代表其携带的具体信息。把所有词的V按刚才的权重混合在一起,生成一个全新的向量Z【它】=动物的V乘以68%+马路的V乘以32%,得到Z【它】=[0.424,0.508,0.436,0.324]。于是,“它”就从没有上下文的空壳代词转变为指向明确实体的词,在最终的具体信息Z【它】中,68%是动物的信息,32%是马路的信息。
以上操作被称为“注意力层”,本质上只是一种加权平均,这种操作是线性的,依然不能让模型学会复杂逻辑。所以,在每一层的“加权平均”之后,紧跟着加上一个前馈网络FFN。FFN的结构很简单:对Z先后施加两次线性变换,第一次大幅升维,第二次降回原维度,两次中间夹一个将无关特性清零的筛选函数,从而提炼出更高层次的抽象特征,并从海量参数中检索出与当前上下文最相关的事实信息。注意力层让“它”指向“动物”,FFN则在这个基础上进行统计学联想,将“动物”“害怕”和“不过马路”匹配起来。
上述流程只是第一层。在真实的Transformer架构中,通常有几十层这样的结构。比如GPT-4就有120层以上。每一层都在处理不同级别的抽象信息。浅层关注词性和语法。中层关注指代关系和语义角色。深层关注逻辑推理和情感。每一层的输出都是下一层的输入。每一层都在改写每个词的向量,第一层让“它”知道自己是“动物”,第二层让“动物”知道自己是“害怕”的主体,到了第30层,“动物”这个向量里已经浓缩了整句话的因果逻辑。
几十层简单操作的反复迭代和逐级抽象,就是AI模型得以理解文本的原因。
SubQ有何优化?
理解了Transformer的完整原理,也就能理解SubQ到底在优化什么。
在Transformer的每一层的注意力层中,每个词的Q都要跟所有词的K算一遍点积,称为“密集注意力”,是目前的主流做法。举个例子,AI要想总结《红楼梦》,就必须同时看见从第一个词到最后一个词的全部词语,并将它们两两组合起来,不管这些组合有没有意义。假设我们在圆周上点出n个点,每个点代表一个词,然后在每两个点之间连一条线,代表一对组合。最后线的条数是n(n-1)/2,简化为O(n²)。而SubQ则将这个数目压缩至O(n log n),或者O(n·k)(其中k是一个很小的常数),如果n极大,削减量也就相当可观。100万个词原本大约需要10¹²次运算,SubQ把这个数字压低了大约64倍,意味着“算得动”和“算不动”之间的差别。到了1200万个词,差距就更大了,原方法的成本会变成天文数字,而subQ的花费仍然在可承受范围内。
SubQ的办法是“稀疏注意力”,意思是跳过那些不重要的组合,只算关键的组合。举个例子,在“动物没过马路,因为它很害怕”这个句子里,人凭直觉即可判断“它”指代的是“动物”,不是,更不会考虑“很”和“马路”之间的关系。问题在于:AI如何判断哪些关系重要,哪些不重要?以前那些稀疏注意力的方法大多依赖于固定模式,比如每个词只同它左右的512个邻居计算点积,或者每隔一段固定距离再选一个词进行计算。这些方法确实压缩哦了计算量,但也导致模型变成了近视眼,如果关键信息刚好隔了600个词,肯定就遗漏了。
SubQ模型的SSA架构所做的,就是在注意力层这一步加了一个经过训练的智能筛选器。Subquadratic声称,他们的SubQ模型第一次实现了真正的动态选择性稀疏注意力,不靠固定规则,而是让模型自己学会判断:在当前这段文本里,哪些词与词之间的关系真的有用,然后只算这些组合之间的点积。关系模式随文本内容发生动态变化,每一段文本的关注清单都不一样。
检验与争议
Subquadratic上个月刚刚走出隐身模式,就发布了这个消息,很多人不信。一个月后,公司请了第三方评估机构来做独立测试。结果表明,在LiveCodeBench(编程能力测试)中,SubQ得分89.7%,跟OpenAI、Anthropic、Google DeepMind的顶级编程模型处于同一梯队。大海捞针测试(长上下文检索)中,面对600万和1200万Token的上下文,SubQ达到了98%的准确率,属于近乎完美的顶尖水平。速度测试显示,SubQ比一种更早的稀疏注意力模型快了56倍。成本方面,在RULER 128测试中,Anthropic的Opus 4.6运行一遍的成本是2600美元,而SubQ只花了8美元。
独立测试的高分表现证明了SubQ的能力,但争议尚存。其中最关键的一点质疑就是,SubQ并不是从头开始训练的,而是复用了中国开源模型Qwen训练好的的模型参数,所以并不能完全证明SSA的优越性。一些研究人员认为,目前的公开证据并不足以说明SubQ已经彻底解决了上述瓶颈。此外,SubQ至今没有大规模开放试用。
又一次变革?
当前,处理长文档的主流方案是RAG(检索增强生成),把文档切成小块,先搜索相关内容块,再送给模型生成答案。RAG有两个固有缺陷:第一,检索环节可能漏掉关键信息;第二,跨文档的复杂逻辑被切碎了。如果SubQ真能以极经济的成本处理百万甚至千万级Token的上下文,一切大为不同:模型可以直接吞下整份文档或整个代码库,无需中介替它筛选。
在跨文档分析方面,在一次演示中,SubQ分析了400份文档中的信息,只需几秒即可做出回应。而Perplexity连400份文档都没能全部加载。
与此同时,Subquadratic明确表示,公司正在逐步扩大访问范围,他们接下来的目标是继续优化SSA架构,并计划发布更多经过第三方验证的测试结果。他们踌躇满志,志在以他们的SSA架构改变大语言模型的构建方式。“我们想开启一个新时代,”该公司联合创始人兼CEO Justin Dangel说,“我们认为,几年之后,谁也不会再用标准Transformer来建模型了。”
这话听来很狂。不过,回想2017年,那篇题为《Attention Is All You Need》的论文刚刚发表的时候,很多人也觉得,抛弃AI的正统循环神经网络,代之以注意力机制,绝对是个很狂的想法。只有那时还没什么名气的OpenAI率先注意到Transformer的潜力,五年后,ChatGPT横空出世,从前无人问津的Transformer就此成了构建AI的主流方式。
变革会不会重演,取决于SubQ接下来的表现。此外,像OpenAI和Google这样的巨头是不是已经找到了同样的答案,只是秘而不宣?让我们拭目以待。
参考文献
https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/
https://www.mindstudio.ai/blog/what-is-sub-quadratic-sparse-attention-subq-ssa
