Nvidia在最新技术简报中披露,GB200 Blackwell架构通过创新的NVLink Switch系统与双芯片协同设计,专为MoE模型的稀疏计算特性优化。其关键改进在于将专家路由延迟降低至微秒级,使Kimi K2 Thinking等模型在千卡集群中实现近线性扩展效率。实测数据显示,处理1.8万亿参数规模的MoE模型时,GB200单节点吞吐量达每秒3,200 tokens,较H200的320 tokens提升整整10倍,同时功耗维持在同等水平。
Blackwell架构特有的Transformer引擎动态分配机制,可智能识别MoE模型中激活的专家子集,避免传统GPU对非活跃参数的冗余计算。Nvidia首席科学家Bill Dally指出:“这种硬件级稀疏性支持使MoE模型的推理成本下降83%,为千亿级模型商业化铺平道路”。