2025-9-29

科大讯飞:已完成MoE和强化学习等算法在昇腾算力上的适配优化

新闻图片

科大讯飞近日宣布已完成MoE(混合专家)和强化学习等算法在昇腾算力平台上的全面适配优化,标志着国产AI算力在大模型关键算法领域实现重大突破。2025年3月,科大讯飞基于昇腾算力率先实现了MoE模型的大规模跨节点并行集群推理,性能提升达3倍,成为继DeepSeek后业界首个基于自研算力的MoE解决方案,进一步巩固了中国在AI算力自主创新道路上的领先地位。

4 来源
技术突破与里程碑成果

科大讯飞与华为昇腾团队历经数年深度合作,已系统性完成从算法适配到性能优化的全链条攻关。根据最新公告,科大讯飞现已完成MoE和强化学习等前沿算法在昇腾算力平台上的全面适配优化,这标志着国产算力正式迈入支撑大模型核心算法的新阶段。[1][2]

2025年3月,科大讯飞基于昇腾算力实现了业界瞩目的技术突破——率先完成MoE模型的大规模跨节点并行集群推理,推理吞吐提升3.2倍,端到端时延降低50%。这一成果不仅是继DeepSeek公布其MoE方案后,首个基于国产自研算力的全新解决方案,更印证了自主创新算力完全可以支撑大模型研发达到世界领先水平。[3][4]

此次突破是科大讯飞在昇腾CANN平台合作历程中的关键节点:继2023-2024年实现星火大模型训练性能从开箱30%提升至90%后,再到2024年实现大模型长稳训练断点续训恢复时间从30分钟缩短至5分钟以内,如今的MoE推理性能飞跃,标志着双方合作已从’会用’阶段正式迈入’用好’阶段。[3]

联合优化核心技术细节

为攻克MoE模型在昇腾平台上的性能瓶颈,科大讯飞与昇腾团队展开了深度协同创新,针对计算、内存和通信三大维度进行系统优化:

  • 双方联合开发和优化了超过50个关键算子,其中科大讯飞自主开发的自定义关键算子超过10个,通过优化MoE特有的关键算子,计算效率提升15%以上;对部分融合算子进行加速,实现端到端5%的性能提升。[1]

  • 在MLA预处理阶段,创新采用Vector与Cube异构计算单元并行流水,将多个小算子融合重构为原子级计算单元,消除小算子下发开销,使MLA前处理时延降低50%以上。[2]

  • 通过构建TP(张量并行)+EP(专家并行)混合范式,对MLA计算层采用机内TP并行,发挥机内高速互联优势;创新MoE专家分层调度,64卡均衡分配专家计算节点,定制AllToAll通信协议,专家数据交换效率提升40%,跨机流量降低60%。[2]

  • 采用多种通信掩藏技术,将端到端通信压缩至20%以内,同时研发路由专家负载均衡算法,实现卡间负载差异小于10%,集群吞吐提升30%,单卡静态内存占用缩减至双机部署的1/4,效率提升75%。[1][2]

应用前景与行业影响

这一技术突破不仅解决了MoE大模型在国产算力平台上的性能瓶颈,更为大模型商业化落地开辟了新路径。科大讯飞表示,基于该方案的推理引擎已实现对DeepSeek V3和R1的高效推理,将直接应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。[1]

在2025年AI应用大规模落地的背景下,算力成本控制成为大模型商业化的关键挑战。科大讯飞的优化成果显著降低了算力资源消耗,为行业提供了可复制的国产算力优化范式,有望加速AI应用从’可用’向’好用’的转变。[2]

此外,科大讯飞的案例正引领形成AI产业的创新群像,包括智谱、字节跳动、面壁智能、蚂蚁金服、美团等20多家头部企业正作为CANN生态关键合作者,共同重塑AI产业创新范式。清华系AI独角兽无问芯穹也基于CANN深度优化创新,通过全新的计算和通信重叠范式,对昇腾硬件多元通信语义进行专项优化,单算子性能提升最高达20%,有效降低大模型推理的算力资源消耗。[2]

本内容由AI生成