Meta开源AI框架KernelEvolve,通过智能体自动生成优化GPU内核代码,最高提升17倍性能,解决多硬件/算子组合爆炸问题,将开发周期从数周缩短至数小时。 ## 1. 解决行业痛点:GPU内核开发效率瓶颈 - 传统手工优化需专家耗时2-8周/算子,跨硬件需重复开发 - Meta面临模型架构多样(Transformer/CNN等)、硬件平台碎片化(NVIDIA/AMD/MTIA)、编程语言复杂(CUDA/Triton等)的三重维度诅咒 ## 2. 系统架构与核心技术突破 - **三层架构**:顶层搜索策略(进化算法/MCTS)、中间智能体分工(深度搜索/运行时分析/MTIA知识注入)、底层评估工具链 - **通用算子设计**:通过检索增强提示合成动态适应不同运行时上下文,实现"一套代码多平台运行" - **专有硬件支持**:LLM通过知识注入生成Meta自研MTIA芯片生产级代码,支持Triton→RISC-V二进制转换 ## 3. 实测性能与生产效益 - 基准测试:KernelBench 250题100%通过率,PyTorch ATen 480种配置全正确 - 加速比:Llama-3.1 Attention提升4.6倍,MTIA RMSNorm Backward达17倍 - 开发效率:从数周缩短至数小时,Triton内核库年增长率60%(超8000个内核) ## 4. 行业影响与未来展望 - 突破AI硬件可编程性门槛:新芯片通过知识注入可立即生成优化代码 - 解决编程模型碎片化:AI代码生成可统一CuTe/TLX/Helion等5种以上DSL - 关键启示:内核覆盖度直接影响系统延迟(缺算子会导致10-20ms网络延迟增加)
Meta开源KernelEvolve:AI自动写GPU内核,性能提升17倍
2026-03-25 07:37

Meta开源KernelEvolve:AI自动写GPU内核,性能提升17倍

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


写GPU内核这活儿有多痛苦,搞过深度学习的都懂。一个算子优化,专家得折腾2-8周,而且换个硬件平台又得重写一遍。


Meta搞了个大新闻,开源了KernelEvolve——一个用AI智能体自动生成高性能内核的框架。


说白了,就是让AI帮你写CUDA/Triton代码,效果比人写的还快,最高能提升17倍性能!


为啥需要这玩意儿?


Meta每天要给数十亿用户做广告排序推理,执行数百万亿次计算,耗电量是兆瓦级别的。微秒级的延迟优化,直接影响用户体验和公司收入。


但现在的问题是三大维度的诅咒:


1.模型架构千奇百怪——Transformer、CNN、推荐模型,算子需求各不相同


2.硬件平台五花八门——NVIDIA、AMD、还有Meta自己搞的MTIA芯片


3.编程模型碎片化——CUDA、Triton、CuTe、TLX,学都学不过来

维度灾难:模型×算子×硬件的组合爆炸


KernelEvolve应用场景


KernelEvolve是啥?


简单说,这就是一个AI驱动的内核代码生成器。


你给它一个算子规格(输入输出啥样、要干啥),它自动给你生成优化好的内核代码。


KernelEvolve系统概览


系统架构分三层:


最上层是搜索策略——用贪心搜索、MCTS(蒙特卡洛树搜索)、进化算法来探索代码空间。


中间是智能体核心——几个子代理分工合作:深度搜索代理查知识库、上下文记忆代理分析运行时反馈、MTIA知识注入针对Meta自研芯片优化。


底层是评估工具——验证代码正确性、分析性能瓶颈、生成诊断报告。


KernelEvolve详细系统架构


核心技术亮点


1.通用算子设计


传统AI代码生成是固定的Draft/Debug/Improve三件套。KernelEvolve搞了个通用算子,通过检索增强提示合成,动态适应不同的运行时上下文。一套代码走天下。


通用算子通过检索增强提示合成动态适应上下文


2.支持专有硬件


Meta自己搞的MTIA芯片,训练语料里根本没有。KernelEvolve通过知识注入,把硬件特性文档喂给系统,LLM就能生成生产级的MTIA内核。


支持的硬件平台:


-NVIDIA GPU:Triton→LLVM-IR→PTX/CUBIN


-AMD GPU:类似NVIDIA的Triton支持


-MTIA(Meta自研):Triton→RISC-V Binary


MTIA的AI芯片架构


效果咋样?


基准测试:KernelBench 250道题100%通过率,PyTorch ATen 160个算子×3个平台=480种配置100%正确。


生产环境性能提升:


深度学习模型性能提升


-Llama-3.1-8B Attention:4.6倍加速


-Conv1d卷积:6.5倍加速


-Conv2d卷积:4.7倍加速


-MergeBucketizedDense Transform:9.3倍加速


-Batch Event Truncate:9.8倍加速


-MTIA RMSNorm 2D Backward:17倍加速


开发效率:从数周缩短至数小时。



启示


✅Triton现在已经是Meta的主力编程模型,超过8000个内核,增长率60%,超过停滞的CUDA代码库


✅内核覆盖度决定系统部署可行性——缺关键算子会迫使采用分解式服务架构,增加10-20ms网络延迟


✅新兴DSL(CuTe、TLX、Helion)造成5种以上语言的编程模型碎片化,AI代码生成是解决之道


最后唠两句


KernelEvolve的意义不只是自动化写代码,它解决的是一个根本问题:新AI硬件的可编程性门槛。


以前出个新芯片,得等好几年才有成熟的软件生态。现在通过知识注入,AI可以直接学习新硬件特性,立刻开始生成优化代码。


这套方法不光能用在GPU,任何新兴加速器都能受益。以后搞AI芯片的创业公司,不用愁软件生态了,KernelEvolve这种工具就是破局关键。


你觉得AI自动写内核代码会取代手写CUDA专家吗?评论区聊聊。


论文:KernelEvolve:Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta


arXiv:2512.23236v3

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP