根据美国商务部工业与安全局(BIS)定义的’总处理性能’(TPP)指标,英伟达H200以60,000 TPP领先市场,而国产顶级芯片华为昇腾910C达到36,912 TPP(约为H200的61.5%),寒武纪思元590为29,360 TPP(约为H200的49%),海光BW1000/DCU3为14,688 TPP(约为H200的24.5%)[1]。在单卡性能暂时无法与英伟达匹敌的情况下,国产厂商通过’三管齐下’策略突围:堆面积、堆晶体管、堆芯片。华为昇腾910C采用双Die设计,FP16算力达到800 TFLOPS;寒武纪思元590综合性能达到英伟达A100的70-80%;海光信息深算二号FP16算力达1024 TFLOPS,接近A100的90%[1]。
训练能力方面,国产卡单卡仍落后H200约2-3倍,但集群层面可通过’堆卡+高速互联’弥补部分差距。华为CloudMatrix 384集群(384张昇腾910C)性能已接近英伟达GB200 NVL72,在部分大模型训练任务中表现良好[1]。推理能力方面,国产Top卡已持平甚至超越阉割版H20。华为昇腾910B2的INT8算力达到762 TOPS;沐曦曦云C550的显存带宽达到1600-1800GB/s,在大规模推理任务中具有优势[1]。