Nous Research团队提出Token叠加训练方法TST，无需改动模型架构，可将大模型预训练算力成本降六成，提速约2.5倍，还能提升模型效果。 ## 1. 核心成果：TST用四成算力跑出更优模型效果凭借140K Star的Hermes Agent出圈的Nous Research团队提出Token Superposition Training（TST），可大幅压低大模型预训练成本，相关讨论帖浏览量已突破41万。在Qwen3-like 10B-A1B百亿参数MoE实验中，baseline训练1.05T tokens消耗12311 B200-hours，TST训练2T tokens仅消耗4768 B200-hours（约为baseline的38.7%），同时final loss从2.252降至2.236，多个主流0-shot评测指标同步提升，相同最终损失下预训练时间压缩到原来的40%，提速约2.5倍。 ## 2. 路线差异：和DeepSeek降本思路不同，切口更轻巧易落地 DeepSeek代表系统级重构降本路线，靠MoE、MLA等系统级工程压榨算力，需要为复杂度买单。而TST不改动模型架构，仅从模型学习token的方式入手，重写预训练早期学习路径，切口更轻巧，更容易落地。 ## 3. TST训练逻辑：分两阶段由粗到细学习，不改变最终推理架构 TST将预训练拆分为两个阶段，第一阶段为词元叠加阶段，训练前期将连续多个token打包为一组，输入侧对组内token的embedding求平均得到叠加词元，输出侧预测下一组token包含哪些token，相当于让模型先“粗读”学习粗粒度语言信息。第二阶段为恢复阶段，训练跑到一定比例后切回标准next-token prediction训练，补全token级精度和生成能力，最终得到的仍是普通可直接部署的LLM。TST是即插即用的预训练方法，只改变训练过程，不改变推理模型，不会牵动推理部署、生态适配的调整。 ## 4. 降本原理：用粗粒度学习换更高数据吞吐，压缩预训练试错成本在TST词元叠加阶段，连续s个token被合成1个叠加词元，模型内部处理的序列长度缩短，相同浮点计算量下可以处理s倍的原始数据token，相当于预训练早期每一步训练能处理更多文本。这种“粗读”会丢失bag内词序信息，不能全程使用，但预训练早期学习基础语言统计结构时，低分辨率输入已经足够高效。TST省下的不只是单次训练的GPU小时数，更压缩了整个预训练实验周期的试错成本。 ## 5. 实验验证：百亿参数模型收益最明显，超参选择相对稳健 TST在270M、600M、3B稠密模型和10B-A1B MoE上都得到验证，其中百亿参数10B-A1B MoE收益最大，符合文中开篇的实验结论。超参扫描实验显示，TST对超参选择相对稳健，bag size在4到8、superposition训练步数比例在0.2到0.4时通常表现较好。消融实验证实，TST是输入侧提吞吐、输出侧提监督密度两个机制的叠加，完整TST效果优于单独使用输入侧或输出侧改造，和MTP本质不同：MTP是同一位置额外预测多个未来token，TST是将输入输出都改为更粗粒度的局部窗口。 ## 6. 方向价值：打开预训练降本新路径，降低中小团队训练门槛 TST点醒了预训练降本的新方向：不必总盯着模型结构开刀，仅调整预训练早期学习路径就能实现高效提效，对于算力受限的团队十分友好，可明显降低1B-10B级垂直模型的试错成本。如果团队本身存在高质量数据不足的问题，TST可能放大数据短板，但其“模型学习顺序本身就是效率杠杆”的启发，为行业提供了新的创新方向。

2026-05-15 19:05

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

AI前线

速览

本文来自微信公众号： AI前线，作者：四月

模型能力还需往上走，但训练成本却不能再无止境堆砌了——这可能是当前AI行业最强烈的共识。

从开发者到模型公司，大家关心的焦点已经不只是“谁家的模型更强”，而是一个更务实的问题：“同样多的GPU、同样的训练时间，能不能跑出更多有效实验，吃进更多有效数据，拿到更好的loss和下游指标？”

凭借Hermes Agent（140K Star）火速出圈的Nous Research团队，刚刚提出了一种Token叠加训练方法：Token Superposition Training（TST），有望把大模型的预训练成本压低一个量级。

目前，该贴的浏览量已突破41万。Hugging Face:http://huggingface.co/papers/2605.06546

在论文《Efficient Pre-Training with Token Superposition》中，最值得关注的是一组百亿参数MoE实验（Qwen3-like 10B-A1B MoE），效果非常直观：

baseline训练1.05T tokens消耗12311 B200-hours；
而TST训练2T tokens，仅消耗4768 B200-hours，约为baseline的38.7%；
与此同时，final loss从2.252降至2.236，HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测同步提升。

换言之，TST只用了约四成GPU时间，就跑出了更低的loss和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的40%，提速约2.5倍。

如果说，超越龙虾（OpenClaw）、登顶全球OpenRouter的Hermes Agent，证明了Nous Research团队既会训模型，也能用Agent把能力调教到极致；那么最新提出的TST，则是把视线从“模型怎么用”，进一步拉回了能力的源头，直击预训练本身。

之所以将Nous Research与DeepSeek对标，不只是因为这支美国团队同样长期坚守开源阵营，更因二者的降本路线截然不同。

DS代表的是系统级重构，无论是MoE、MLA，还是稀疏化与并行优化，皆靠系统级工程压榨算力。效率提升从来不是免费的，工程总要在别处为复杂度买单。

而NR则是重写预训练早期的学习路径。它不碰架构，从模型学习token的方式本身下手，切口更轻巧，更容易落地。

TST：让模型先“粗读”，再“精读”

要理解TST，让我们先回到预训练最基础的动作：next-token prediction（下一个词元的预测）。

标准训练里，模型看到前面的token，预测下一个token。这个机制很简单，也很强。过去几年，几乎所有主流LLM都是在这个范式上堆出来的。

但TST提出了一个很朴素的问题：模型在预训练一开始，真的有必要逐token精读吗？

NR的答案是：不一定。他们把预训练拆成两个阶段。

图注：TST与标准next-token prediction、MTP、SuperBPE的对比。TST在训练早期同时改变输入粒度和输出监督目标，但不改变最终模型架构

第一阶段叫superposition phase（“词元叠加阶段”）。在训练前期，模型不再一个token一个token地读文本，而是把连续多个token打成一个bag。比如bag size为8，就把连续8个token看作一组。

输入侧，模型会把这一组token的embedding（“向量表示”）求平均，变成一个压缩后的superposed token（“叠加词元”）。输出侧，模型也不再预测下一个单独token，而是预测下一组token里会出现哪些token。

第二阶段叫recovery phase（“恢复阶段”）。训练跑到一定比例后，TST被移除，模型重新回到标准next-token prediction。也就是说，后半程还是按照普通LLM的方式训练，把前期“粗粒度学习”得到的表示，拉回到可生成、可部署的自回归模型形态。

论文把TST称为一个drop-in pretraining method（“即插即用式预训练方法”），重点就在这里：它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构，真正改变的是训练早期的输入粒度和监督目标。

这也是它和很多训练提效方案不一样的地方：TST只改变训练过程，不改变推理模型。

目前很多方法一旦触及训练端优化，就会牵动推理。比如换tokenizer，生态兼容要重来；改模型结构，部署链路要适配；改注意力或推理机制，线上服务也要跟着调整。

但TST是把复杂度留在训练阶段，最终交付的仍然是一个普通LLM。

当然，只用TST训练是不够的。论文也明确指出，如果模型全程只用TST，它会输出多个未来token的混合概率，生成结果会变得混乱。因此，TST必须在后期切回标准自回归训练。

这也解释了为什么TST更适合被理解为一种“阶段化训练策略”，而不是next-token prediction的替代品。

更直白地说，TST做的事情有点像让模型在预训练早期先“粗读”：先学习局部语义、词汇共现和粗粒度分布；等基础表示建立起来之后，再回到逐token的标准自回归训练，把生成能力和token级精度补回来。

也就是，训练时压缩token，推理时还是普通LLM。

为什么能省GPU？

每一步都吃进更多文本

TST的提速不是玄学。它的核心是一种资源取舍，用更粗的token表示，换更高的数据吞吐。

这里的数据吞吐，对应论文里的data throughput per FLOPs，可以理解为“单位计算量能处理多少原始文本”。换句话说，不是GPU忽然变快了，而是同样算一次，模型能看见更多文本。

标准训练中，模型每个位置处理一个token，序列长度为L，Transformer就要处理L个表示。

但在TST的superposition phase，连续s个token被合成一个superposed token。模型内部处理的序列长度变短了，但每个位置对应的原始文本却变多了。

因为模型是在更粗粒度的表示上计算，所以在相同FLOPs（浮点计算量），它可以处理s倍的数据token。

图注：在3B模型实验中，TST在equal-loss设置下用更少训练步数达到baseline loss，说明其主要收益来自训练早期更高的数据吞吐

传统预训练像逐字精读；而TST的早期训练则像是先快速扫一遍段落，抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后，再切回逐字精读。

这种“粗读”并非没有代价——它会丢失bag内的词序信息，所以不能全程使用。但在模型刚接触语言统计结构时，这种低分辨率输入反而够用且高效。

论文将此定义为一种coarse-to-fine（由粗到细）的策略：先让模型在简单、高吞吐的分布中学习粗粒度统计结构，再恢复全分辨率语言建模。

这与当前主流的效率路线截然不同：MoE是让每个token少激活参数；稀疏注意力是让每个token少看位置；MTP（Multi-Token Prediction，多token预测）是让每个位置多预测几个未来token；而TST，是让模型在训练早期换一种token粒度学习。

它不是让模型变小，也不是直接让推理变快，而是让预训练早期的每一步都更“值钱”。

这对开发者至关重要。预训练不是一锤子买卖，而是不断试错的过程。早期训练越快进入有效区间，数据配方、超参设置这些实验就能越早得到验证。

说白了，TST省下的不只是一次训练的GPU小时，更是整个实验周期的试错成本。

最大收益来自百亿参数模型

论文没有只做小模型实验，而是在270M、600M、3B稠密模型，以及10B-A1B MoE上进行了验证。这里的10B-A1B MoE，即总参数约100亿、每token激活约10亿参数的MoE模型。正如开篇提及的，这是收益最大的受试模型。

图注：TST在不同规模模型上的核心实验结果

图注：在10B-A1B MoE实验中，TST将B200 GPU训练时间消耗降到baseline的四成左右，并取得更低loss和更好的0-shot指标

也就是说，TST消耗了更多数据token，但用更少GPU时间达到了更好的结果。论文指出，在相同loss口径下，TST对应约2.5倍提速。

这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练，而是成功之前的所有试错。一次实验少用一半以上GPU时间，意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。

论文还做了多组小规模超参数扫描实验，也就是sweep，观察不同bag size和superposition step ratio的影响。最终作者认为，在合理范围内，TST对超参选择相对稳健：bag size在4到8，superposition训练步数比例在0.2到0.4时，通常表现较好。

图注：不同bag size和训练比例下，TST在loss与下游评测上都呈现相对稳定收益

另外，TST并非单一机制在起作用。

论文做了输入侧、输出侧和完整TST的消融实验：输入侧和输出侧单独使用时都能优于baseline，但完整TST效果最佳。作者据此指出，TST是两个机制的叠加：输入侧改变了输入粒度和单位信息的FLOPs成本；输出侧改变了预测目标与梯度信号。

这套机制的启发意义在于，输入侧作为在训练早期，给到模型一个低分辨率视野，让它以更低成本接触更多文本；输出侧则像是把监督信号从“下一个token是什么”改成“接下来这一小段大概会出现哪些token”。前者提高吞吐，后者提高监督密度。

这也是为什么TST和MTP看起来有点像，但本质不完全一样。

MTP更像是在同一个位置额外预测多个未来token；TST则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目，一个是改变学习分辨率。

训练降本开始转向学习路径优化

TST最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：训练降本，别总盯着模型结构开刀。

过去一提降本，大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活，家里没有余粮的团队根本接不住。但这次，TST给了一个轻得多的切口：只调整预训练早期的学习路径。

这意味着什么？

同样多的GPU预算能多试几轮配方，1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说，这比硬刚前沿最新模型务实得多。

当然，TST也不是免费午餐。

它本质上是“拿数据吞吐换GPU时间”，如果你是算力受限的团队，这招极香；但如果你连高质量数据都喂不饱，那TST不仅帮不上忙，甚至可能放大数据短板。

但这不影响它的方向价值。

TST把一个被默认太久的问题重新拎了出来：模型学习语言的顺序，本身也可能是一种效率杠杆。

当模型越来越贵，真正有价值的创新不只是把模型做大，而是让模型更会学习。更准确地说，是让每一步训练都更值钱。

参考链接：

Paper:http://arxiv.org/abs/2605.06546

HF:http://huggingface.co/papers/2605.06546

Blog:http://nousresearch.com/token-superposition

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP