初创公司Subquadratic推出SubQ模型，以动态稀疏注意力将Transformer长文本计算量从平方级降为亚平方级，有望打破大语言模型长上下文瓶颈。 ## 1. 原有Transformer架构的长上下文瓶颈 Transformer依赖密集注意力机制，每个词需与所有词计算关联，计算量随文本长度呈平方级增长：文本长度n倍，算力需求n²倍。多数商用大模型上下文窗口卡在128K-200K Token，处理百万级Token（约合两三部《三体》体量）时计算量达万亿次，GPU无法承受，无法满足长文档、全代码库分析等需求。 ## 2. SubQ模型的核心优化思路 SubQ采用动态选择性稀疏注意力（SSA）架构，通过训练后的智能筛选器，让模型自主判断并只计算文本中真正有用的词对关联，跳过无关组合。该优化将计算量从O(n²)压缩至O(n log n)或O(n·k)（k为很小的常数），百万词运算量压低约64倍，1200万词场景下成本仍在可承受范围，解决了传统固定规则稀疏注意力容易遗漏关键信息的问题。 ## 3. 第三方测试结果与现存争议第三方独立测试显示：SubQ在编程测试中得分89.7%，与头部大厂顶级编程模型同梯队；600万、1200万Token长上下文检索准确率达98%，比早期稀疏注意力模型快56倍；128K测试中成本仅8美元，远低于Anthropic Opus的2600美元。目前尚存争议：SubQ基于开源模型Qwen预训练参数复用，现有公开证据不足以完全证明SSA架构优越性，且尚未大规模开放试用。 ## 4. 技术影响与未来展望当前主流长文档处理方案RAG存在易漏关键信息、切碎跨文档逻辑的缺陷，若SubQ技术落地，模型可直接处理百万甚至千万级Token完整文档，无需提前切片检索。 Subquadratic计划进一步优化SSA架构、开放访问、发布更多测试结果，目标改变大模型构建方式，类似Transformer取代循环神经网络的AI变革是否会重演仍待观察。

2026-06-29 11:10

AI的一大重要瓶颈，被一家初创公司解决了

心智观察所©

速览

本文来自微信公众号：心智观察所，作者：心智观察所

读不了太长的文本，是主流大语言模型的共同弱点。上下文的长度过长，AI的记忆就会出现混乱，答非所问，或者反应迟缓，甚至拒绝处理。究其原因，便在于主流大语言模型的架构本身面临的数学瓶颈：负责理解文本的Transformer的计算量随文本长度呈平方级增长。也就是说，文本长度翻倍，算力需求翻四倍；文本长度翻三倍，算力需求翻九倍。到了百万级Token（约合两三部《三体》的体量），计算量直奔万亿次，再强的GPU也顶不住。

大多数商用模型的上下文窗口因此卡在了128K到200K Token之间。这个数目听来不小，可一旦需要分析一整年的客服工单、装有几百个文件的代码仓库，或者一份300页的并购协议，模型就算不动了。

近日，初创公司Subquadratic宣布他们打破了这个瓶颈。

这个瓶颈是什么？首先，AI在阅读一个文本时，必须将每一个词（Token）与文本中的其他词彼此对照一下，计算它们之间的关联。有n个词，大概需要算n²次，即二次方的增长速度。处理100万个词，就需要计算大约100万×100万=1万亿个词与词之间的关系，即便用最先进的GPU，单次推理也需好几分钟，成本达到几十乃至上百美元。如果扩展到1200万个词，那就是144万亿次，在经济上已经不大可行。而Subquadratic新推出的SubQ模型则大大削减了计算的次数。

AI如何读懂一句话？

我们可以解剖一个最简单的句子：“动物没过马路，因为它很害怕。”这话很好理解。“它”指的当然是“动物”，不是“马路”。但既没眼睛也没常识的AI怎么理解？第一步，AI把文字变成数字。每个大语言模型内部都有一本巨大的词典，其中每个词（Token）对应一排固定长度的数字，比如：动物=[0.8,0.1,0.3,0.9]，马路=[0.1,0.9,0.2,0.3]，它=[0.6,0.4,0.8,0.5]。这一排数字叫向量，其中的每一维度代表某一特性，相当于这个词在数学空间里的经纬度坐标。“动物”和“马路”在“是否有生命”这个维度上的数值差距很大（0.8 vs 0.1），机器一看就知道它们不是同类。光有词向量还不够，因为在“狗咬人”和“人咬狗”里，“狗”和“人”各自的向量还是那个向量，模型分不清谁咬了谁。所以必须给每个词贴上座位号，这叫位置编码。此后，每个词变成了一个携带自身坐标和位置的数字包裹，列队进入了模型真正的核心区域Tranformer（转换器）。

接下来的一步是所有语言理解的起点：把离散的符号，变成连续的数学对象。Transformer要给每个词造三张身份牌。这三张牌分别叫Q（Query，查询）、K（Key，键）和V（Value，值）。Q代表“我在找什么？”，K代表“我是什么？”，V代表“我带了什么具体信息？”造牌的方法很简单：词向量分别乘以三个不同的矩阵。这三个矩阵是模型在训练阶段自学出来的，对每个词来说都一样。同一个词向量，乘以三个矩阵，映射成三个完全不同的向量。以“动物”为例：Q可能是[1.0,0.0,1.0,0.0]（我在找一个能做动作的主语），K可能是[0.9,0.1,0.8,0.2]（我是有生命、能移动的实体），V可能是[0.2,0.7,0.5,0.1]（我身上具体的信息是“四条腿、毛茸茸”）。三者用途不同，Q是拿出去提问的，K是供其他词匹配的，V是等着被提取的。同样，“它”也生成了自己的Q【它】=[1.0,0.0,1.0,0.0]，在找“有生命的主语”。

“它”拿着自己的Q【它】，要去跟句子中所有其他词的K做一次关系测试。这个测试在数学上就是两个向量的点积。先跟“动物”的K做测试：1.0×0.9+0.0×0.1+1.0×0.8+0.0×0.2=1.7。再跟“马路”的K做测试：1.0×0.1+0.0×0.8+1.0×0.1+0.0×0.9=0.2。1.7比0.2大得多。“它”跟“动物”之间的亲密度，远超跟“马路”的。

随后利用Softmax函数，将Q·K的各个点积转化为归一化的权重，称为注意力权重，对于“它”一词而言，“动物”占据大约68%的权重，“马路”只占据32%的权重。如上所述，每个词都有V，代表其携带的具体信息。把所有词的V按刚才的权重混合在一起，生成一个全新的向量Z【它】=动物的V乘以68%+马路的V乘以32%，得到Z【它】=[0.424,0.508,0.436,0.324]。于是，“它”就从没有上下文的空壳代词转变为指向明确实体的词，在最终的具体信息Z【它】中，68%是动物的信息，32%是马路的信息。

以上操作被称为“注意力层”，本质上只是一种加权平均，这种操作是线性的，依然不能让模型学会复杂逻辑。所以，在每一层的“加权平均”之后，紧跟着加上一个前馈网络FFN。FFN的结构很简单：对Z先后施加两次线性变换，第一次大幅升维，第二次降回原维度，两次中间夹一个将无关特性清零的筛选函数，从而提炼出更高层次的抽象特征，并从海量参数中检索出与当前上下文最相关的事实信息。注意力层让“它”指向“动物”，FFN则在这个基础上进行统计学联想，将“动物”“害怕”和“不过马路”匹配起来。

上述流程只是第一层。在真实的Transformer架构中，通常有几十层这样的结构。比如GPT-4就有120层以上。每一层都在处理不同级别的抽象信息。浅层关注词性和语法。中层关注指代关系和语义角色。深层关注逻辑推理和情感。每一层的输出都是下一层的输入。每一层都在改写每个词的向量，第一层让“它”知道自己是“动物”，第二层让“动物”知道自己是“害怕”的主体，到了第30层，“动物”这个向量里已经浓缩了整句话的因果逻辑。

几十层简单操作的反复迭代和逐级抽象，就是AI模型得以理解文本的原因。

SubQ有何优化？

理解了Transformer的完整原理，也就能理解SubQ到底在优化什么。

在Transformer的每一层的注意力层中，每个词的Q都要跟所有词的K算一遍点积，称为“密集注意力”,是目前的主流做法。举个例子，AI要想总结《红楼梦》，就必须同时看见从第一个词到最后一个词的全部词语，并将它们两两组合起来，不管这些组合有没有意义。假设我们在圆周上点出n个点，每个点代表一个词，然后在每两个点之间连一条线，代表一对组合。最后线的条数是n(n-1)/2，简化为O(n²)。而SubQ则将这个数目压缩至O(n log n)，或者O(n·k)（其中k是一个很小的常数），如果n极大，削减量也就相当可观。100万个词原本大约需要10¹²次运算，SubQ把这个数字压低了大约64倍，意味着“算得动”和“算不动”之间的差别。到了1200万个词，差距就更大了，原方法的成本会变成天文数字，而subQ的花费仍然在可承受范围内。

SubQ的办法是“稀疏注意力”，意思是跳过那些不重要的组合，只算关键的组合。举个例子，在“动物没过马路，因为它很害怕”这个句子里，人凭直觉即可判断“它”指代的是“动物”，不是，更不会考虑“很”和“马路”之间的关系。问题在于：AI如何判断哪些关系重要，哪些不重要？以前那些稀疏注意力的方法大多依赖于固定模式，比如每个词只同它左右的512个邻居计算点积，或者每隔一段固定距离再选一个词进行计算。这些方法确实压缩哦了计算量，但也导致模型变成了近视眼，如果关键信息刚好隔了600个词，肯定就遗漏了。

SubQ模型的SSA架构所做的，就是在注意力层这一步加了一个经过训练的智能筛选器。Subquadratic声称，他们的SubQ模型第一次实现了真正的动态选择性稀疏注意力，不靠固定规则，而是让模型自己学会判断：在当前这段文本里，哪些词与词之间的关系真的有用，然后只算这些组合之间的点积。关系模式随文本内容发生动态变化，每一段文本的关注清单都不一样。

检验与争议

Subquadratic上个月刚刚走出隐身模式，就发布了这个消息，很多人不信。一个月后，公司请了第三方评估机构来做独立测试。结果表明，在LiveCodeBench（编程能力测试）中，SubQ得分89.7%，跟OpenAI、Anthropic、Google DeepMind的顶级编程模型处于同一梯队。大海捞针测试（长上下文检索）中，面对600万和1200万Token的上下文，SubQ达到了98%的准确率，属于近乎完美的顶尖水平。速度测试显示，SubQ比一种更早的稀疏注意力模型快了56倍。成本方面，在RULER 128测试中，Anthropic的Opus 4.6运行一遍的成本是2600美元，而SubQ只花了8美元。

独立测试的高分表现证明了SubQ的能力，但争议尚存。其中最关键的一点质疑就是，SubQ并不是从头开始训练的，而是复用了中国开源模型Qwen训练好的的模型参数，所以并不能完全证明SSA的优越性。一些研究人员认为，目前的公开证据并不足以说明SubQ已经彻底解决了上述瓶颈。此外，SubQ至今没有大规模开放试用。

又一次变革？

当前，处理长文档的主流方案是RAG（检索增强生成），把文档切成小块，先搜索相关内容块，再送给模型生成答案。RAG有两个固有缺陷：第一，检索环节可能漏掉关键信息；第二，跨文档的复杂逻辑被切碎了。如果SubQ真能以极经济的成本处理百万甚至千万级Token的上下文，一切大为不同：模型可以直接吞下整份文档或整个代码库，无需中介替它筛选。

在跨文档分析方面，在一次演示中，SubQ分析了400份文档中的信息，只需几秒即可做出回应。而Perplexity连400份文档都没能全部加载。

与此同时，Subquadratic明确表示，公司正在逐步扩大访问范围，他们接下来的目标是继续优化SSA架构，并计划发布更多经过第三方验证的测试结果。他们踌躇满志，志在以他们的SSA架构改变大语言模型的构建方式。“我们想开启一个新时代，”该公司联合创始人兼CEO Justin Dangel说，“我们认为，几年之后，谁也不会再用标准Transformer来建模型了。”

这话听来很狂。不过，回想2017年，那篇题为《Attention Is All You Need》的论文刚刚发表的时候，很多人也觉得，抛弃AI的正统循环神经网络，代之以注意力机制，绝对是个很狂的想法。只有那时还没什么名气的OpenAI率先注意到Transformer的潜力，五年后，ChatGPT横空出世,从前无人问津的Transformer就此成了构建AI的主流方式。

变革会不会重演，取决于SubQ接下来的表现。此外，像OpenAI和Google这样的巨头是不是已经找到了同样的答案，只是秘而不宣？让我们拭目以待。

参考文献

https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/

https://www.mindstudio.ai/blog/what-is-sub-quadratic-sparse-attention-subq-ssa

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定