Nous Research团队提出Token叠加训练方法TST,无需改动模型架构,可将大模型预训练算力成本降六成,提速约2.5倍,还能提升模型效果。 ## 1. 核心成果:TST用四成算力跑出更优模型效果 凭借140K Star的Hermes Agent出圈的Nous Research团队提出Token Superposition Training(TST),可大幅压低大模型预训练成本,相关讨论帖浏览量已突破41万。在Qwen3-like 10B-A1B百亿参数MoE实验中,baseline训练1.05T tokens消耗12311 B200-hours,TST训练2T tokens仅消耗4768 B200-hours(约为baseline的38.7%),同时final loss从2.252降至2.236,多个主流0-shot评测指标同步提升,相同最终损失下预训练时间压缩到原来的40%,提速约2.5倍。 ## 2. 路线差异:和DeepSeek降本思路不同,切口更轻巧易落地 DeepSeek代表系统级重构降本路线,靠MoE、MLA等系统级工程压榨算力,需要为复杂度买单。而TST不改动模型架构,仅从模型学习token的方式入手,重写预训练早期学习路径,切口更轻巧,更容易落地。 ## 3. TST训练逻辑:分两阶段由粗到细学习,不改变最终推理架构 TST将预训练拆分为两个阶段,第一阶段为词元叠加阶段,训练前期将连续多个token打包为一组,输入侧对组内token的embedding求平均得到叠加词元,输出侧预测下一组token包含哪些token,相当于让模型先“粗读”学习粗粒度语言信息。第二阶段为恢复阶段,训练跑到一定比例后切回标准next-token prediction训练,补全token级精度和生成能力,最终得到的仍是普通可直接部署的LLM。TST是即插即用的预训练方法,只改变训练过程,不改变推理模型,不会牵动推理部署、生态适配的调整。 ## 4. 降本原理:用粗粒度学习换更高数据吞吐,压缩预训练试错成本 在TST词元叠加阶段,连续s个token被合成1个叠加词元,模型内部处理的序列长度缩短,相同浮点计算量下可以处理s倍的原始数据token,相当于预训练早期每一步训练能处理更多文本。这种“粗读”会丢失bag内词序信息,不能全程使用,但预训练早期学习基础语言统计结构时,低分辨率输入已经足够高效。TST省下的不只是单次训练的GPU小时数,更压缩了整个预训练实验周期的试错成本。 ## 5. 实验验证:百亿参数模型收益最明显,超参选择相对稳健 TST在270M、600M、3B稠密模型和10B-A1B MoE上都得到验证,其中百亿参数10B-A1B MoE收益最大,符合文中开篇的实验结论。超参扫描实验显示,TST对超参选择相对稳健,bag size在4到8、superposition训练步数比例在0.2到0.4时通常表现较好。消融实验证实,TST是输入侧提吞吐、输出侧提监督密度两个机制的叠加,完整TST效果优于单独使用输入侧或输出侧改造,和MTP本质不同:MTP是同一位置额外预测多个未来token,TST是将输入输出都改为更粗粒度的局部窗口。 ## 6. 方向价值:打开预训练降本新路径,降低中小团队训练门槛 TST点醒了预训练降本的新方向:不必总盯着模型结构开刀,仅调整预训练早期学习路径就能实现高效提效,对于算力受限的团队十分友好,可明显降低1B-10B级垂直模型的试错成本。如果团队本身存在高质量数据不足的问题,TST可能放大数据短板,但其“模型学习顺序本身就是效率杠杆”的启发,为行业提供了新的创新方向。
Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径
2026-05-15 19:05

Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径

本文来自微信公众号: AI前线 ,作者:四月


模型能力还需往上走,但训练成本却不能再无止境堆砌了——这可能是当前AI行业最强烈的共识。


从开发者到模型公司,大家关心的焦点已经不只是“谁家的模型更强”,而是一个更务实的问题:“同样多的GPU、同样的训练时间,能不能跑出更多有效实验,吃进更多有效数据,拿到更好的loss和下游指标?”


凭借Hermes Agent(140K Star)火速出圈的Nous Research团队,刚刚提出了一种Token叠加训练方法:Token Superposition Training(TST),有望把大模型的预训练成本压低一个量级。



目前,该贴的浏览量已突破41万。Hugging Face:http://huggingface.co/papers/2605.06546


在论文《Efficient Pre-Training with Token Superposition》中,最值得关注的是一组百亿参数MoE实验(Qwen3-like 10B-A1B MoE),效果非常直观:



  • baseline训练1.05T tokens消耗12311 B200-hours;


  • 而TST训练2T tokens,仅消耗4768 B200-hours,约为baseline的38.7%;


  • 与此同时,final loss从2.252降至2.236,HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测同步提升。


换言之,TST只用了约四成GPU时间,就跑出了更低的loss和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的40%,提速约2.5倍。


如果说,超越龙虾(OpenClaw)、登顶全球OpenRouter的Hermes Agent,证明了Nous Research团队既会训模型,也能用Agent把能力调教到极致;那么最新提出的TST,则是把视线从“模型怎么用”,进一步拉回了能力的源头,直击预训练本身。


之所以将Nous Research与DeepSeek对标,不只是因为这支美国团队同样长期坚守开源阵营,更因二者的降本路线截然不同。


DS代表的是系统级重构,无论是MoE、MLA,还是稀疏化与并行优化,皆靠系统级工程压榨算力。效率提升从来不是免费的,工程总要在别处为复杂度买单。


而NR则是重写预训练早期的学习路径。它不碰架构,从模型学习token的方式本身下手,切口更轻巧,更容易落地。


TST:让模型先“粗读”,再“精读”


要理解TST,让我们先回到预训练最基础的动作:next-token prediction(下一个词元的预测)。


标准训练里,模型看到前面的token,预测下一个token。这个机制很简单,也很强。过去几年,几乎所有主流LLM都是在这个范式上堆出来的。


但TST提出了一个很朴素的问题:模型在预训练一开始,真的有必要逐token精读吗?


NR的答案是:不一定。他们把预训练拆成两个阶段。


图注:TST与标准next-token prediction、MTP、SuperBPE的对比。TST在训练早期同时改变输入粒度和输出监督目标,但不改变最终模型架构


第一阶段叫superposition phase(“词元叠加阶段”)。在训练前期,模型不再一个token一个token地读文本,而是把连续多个token打成一个bag。比如bag size为8,就把连续8个token看作一组。


输入侧,模型会把这一组token的embedding(“向量表示”)求平均,变成一个压缩后的superposed token(“叠加词元”)。输出侧,模型也不再预测下一个单独token,而是预测下一组token里会出现哪些token。


第二阶段叫recovery phase(“恢复阶段”)。训练跑到一定比例后,TST被移除,模型重新回到标准next-token prediction。也就是说,后半程还是按照普通LLM的方式训练,把前期“粗粒度学习”得到的表示,拉回到可生成、可部署的自回归模型形态。


论文把TST称为一个drop-in pretraining method(“即插即用式预训练方法”),重点就在这里:它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构,真正改变的是训练早期的输入粒度和监督目标。


这也是它和很多训练提效方案不一样的地方:TST只改变训练过程,不改变推理模型。


目前很多方法一旦触及训练端优化,就会牵动推理。比如换tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。


但TST是把复杂度留在训练阶段,最终交付的仍然是一个普通LLM。


当然,只用TST训练是不够的。论文也明确指出,如果模型全程只用TST,它会输出多个未来token的混合概率,生成结果会变得混乱。因此,TST必须在后期切回标准自回归训练。


这也解释了为什么TST更适合被理解为一种“阶段化训练策略”,而不是next-token prediction的替代品。


更直白地说,TST做的事情有点像让模型在预训练早期先“粗读”:先学习局部语义、词汇共现和粗粒度分布;等基础表示建立起来之后,再回到逐token的标准自回归训练,把生成能力和token级精度补回来。


也就是,训练时压缩token,推理时还是普通LLM。


为什么能省GPU?


每一步都吃进更多文本


TST的提速不是玄学。它的核心是一种资源取舍,用更粗的token表示,换更高的数据吞吐。


这里的数据吞吐,对应论文里的data throughput per FLOPs,可以理解为“单位计算量能处理多少原始文本”。换句话说,不是GPU忽然变快了,而是同样算一次,模型能看见更多文本。


标准训练中,模型每个位置处理一个token,序列长度为L,Transformer就要处理L个表示。


但在TST的superposition phase,连续s个token被合成一个superposed token。模型内部处理的序列长度变短了,但每个位置对应的原始文本却变多了。


因为模型是在更粗粒度的表示上计算,所以在相同FLOPs(浮点计算量),它可以处理s倍的数据token。


图注:在3B模型实验中,TST在equal-loss设置下用更少训练步数达到baseline loss,说明其主要收益来自训练早期更高的数据吞吐


传统预训练像逐字精读;而TST的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。


这种“粗读”并非没有代价——它会丢失bag内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。


论文将此定义为一种coarse-to-fine(由粗到细)的策略:先让模型在简单、高吞吐的分布中学习粗粒度统计结构,再恢复全分辨率语言建模。


这与当前主流的效率路线截然不同:MoE是让每个token少激活参数;稀疏注意力是让每个token少看位置;MTP(Multi-Token Prediction,多token预测)是让每个位置多预测几个未来token;而TST,是让模型在训练早期换一种token粒度学习。


它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更“值钱”。


这对开发者至关重要。预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。


说白了,TST省下的不只是一次训练的GPU小时,更是整个实验周期的试错成本。


最大收益来自百亿参数模型


论文没有只做小模型实验,而是在270M、600M、3B稠密模型,以及10B-A1B MoE上进行了验证。这里的10B-A1B MoE,即总参数约100亿、每token激活约10亿参数的MoE模型。正如开篇提及的,这是收益最大的受试模型。


图注:TST在不同规模模型上的核心实验结果


图注:在10B-A1B MoE实验中,TST将B200 GPU训练时间消耗降到baseline的四成左右,并取得更低loss和更好的0-shot指标


也就是说,TST消耗了更多数据token,但用更少GPU时间达到了更好的结果。论文指出,在相同loss口径下,TST对应约2.5倍提速。


这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练,而是成功之前的所有试错。一次实验少用一半以上GPU时间,意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。


论文还做了多组小规模超参数扫描实验,也就是sweep,观察不同bag size和superposition step ratio的影响。最终作者认为,在合理范围内,TST对超参选择相对稳健:bag size在4到8,superposition训练步数比例在0.2到0.4时,通常表现较好。


图注:不同bag size和训练比例下,TST在loss与下游评测上都呈现相对稳定收益


另外,TST并非单一机制在起作用。


论文做了输入侧、输出侧和完整TST的消融实验:输入侧和输出侧单独使用时都能优于baseline,但完整TST效果最佳。作者据此指出,TST是两个机制的叠加:输入侧改变了输入粒度和单位信息的FLOPs成本;输出侧改变了预测目标与梯度信号。


这套机制的启发意义在于,输入侧作为在训练早期,给到模型一个低分辨率视野,让它以更低成本接触更多文本;输出侧则像是把监督信号从“下一个token是什么”改成“接下来这一小段大概会出现哪些token”。前者提高吞吐,后者提高监督密度。


这也是为什么TST和MTP看起来有点像,但本质不完全一样。


MTP更像是在同一个位置额外预测多个未来token;TST则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目,一个是改变学习分辨率。


训练降本开始转向学习路径优化


TST最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。


过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。但这次,TST给了一个轻得多的切口:只调整预训练早期的学习路径。


这意味着什么?


同样多的GPU预算能多试几轮配方,1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。


当然,TST也不是免费午餐。


它本质上是“拿数据吞吐换GPU时间”,如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那TST不仅帮不上忙,甚至可能放大数据短板。


但这不影响它的方向价值。


TST把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。


当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。


参考链接:


Paper:http://arxiv.org/abs/2605.06546


HF:http://huggingface.co/papers/2605.06546


Blog:http://nousresearch.com/token-superposition

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定