Meta开源AI框架KernelEvolve，通过智能体自动生成优化GPU内核代码，最高提升17倍性能，解决多硬件/算子组合爆炸问题，将开发周期从数周缩短至数小时。 ## 1. 解决行业痛点：GPU内核开发效率瓶颈 - 传统手工优化需专家耗时2-8周/算子，跨硬件需重复开发 - Meta面临模型架构多样（Transformer/CNN等）、硬件平台碎片化（NVIDIA/AMD/MTIA）、编程语言复杂（CUDA/Triton等）的三重维度诅咒 ## 2. 系统架构与核心技术突破 - **三层架构**：顶层搜索策略（进化算法/MCTS）、中间智能体分工（深度搜索/运行时分析/MTIA知识注入）、底层评估工具链 - **通用算子设计**：通过检索增强提示合成动态适应不同运行时上下文，实现"一套代码多平台运行" - **专有硬件支持**：LLM通过知识注入生成Meta自研MTIA芯片生产级代码，支持Triton→RISC-V二进制转换 ## 3. 实测性能与生产效益 - 基准测试：KernelBench 250题100%通过率，PyTorch ATen 480种配置全正确 - 加速比：Llama-3.1 Attention提升4.6倍，MTIA RMSNorm Backward达17倍 - 开发效率：从数周缩短至数小时，Triton内核库年增长率60%（超8000个内核） ## 4. 行业影响与未来展望 - 突破AI硬件可编程性门槛：新芯片通过知识注入可立即生成优化代码 - 解决编程模型碎片化：AI代码生成可统一CuTe/TLX/Helion等5种以上DSL - 关键启示：内核覆盖度直接影响系统延迟（缺算子会导致10-20ms网络延迟增加）

2026-03-25 07:37

Meta开源KernelEvolve：AI自动写GPU内核，性能提升17倍

歪睿老哥©

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

写GPU内核这活儿有多痛苦，搞过深度学习的都懂。一个算子优化，专家得折腾2-8周，而且换个硬件平台又得重写一遍。

Meta搞了个大新闻，开源了KernelEvolve——一个用AI智能体自动生成高性能内核的框架。

说白了，就是让AI帮你写CUDA/Triton代码，效果比人写的还快，最高能提升17倍性能！

为啥需要这玩意儿？

Meta每天要给数十亿用户做广告排序推理，执行数百万亿次计算，耗电量是兆瓦级别的。微秒级的延迟优化，直接影响用户体验和公司收入。

但现在的问题是三大维度的诅咒：

1.模型架构千奇百怪——Transformer、CNN、推荐模型，算子需求各不相同

2.硬件平台五花八门——NVIDIA、AMD、还有Meta自己搞的MTIA芯片

3.编程模型碎片化——CUDA、Triton、CuTe、TLX，学都学不过来

维度灾难：模型×算子×硬件的组合爆炸

KernelEvolve应用场景

KernelEvolve是啥？

简单说，这就是一个AI驱动的内核代码生成器。

你给它一个算子规格（输入输出啥样、要干啥），它自动给你生成优化好的内核代码。

KernelEvolve系统概览

系统架构分三层：

最上层是搜索策略——用贪心搜索、MCTS（蒙特卡洛树搜索）、进化算法来探索代码空间。

中间是智能体核心——几个子代理分工合作：深度搜索代理查知识库、上下文记忆代理分析运行时反馈、MTIA知识注入针对Meta自研芯片优化。

底层是评估工具——验证代码正确性、分析性能瓶颈、生成诊断报告。

KernelEvolve详细系统架构

核心技术亮点

1.通用算子设计

传统AI代码生成是固定的Draft/Debug/Improve三件套。KernelEvolve搞了个通用算子，通过检索增强提示合成，动态适应不同的运行时上下文。一套代码走天下。

通用算子通过检索增强提示合成动态适应上下文

2.支持专有硬件

Meta自己搞的MTIA芯片，训练语料里根本没有。KernelEvolve通过知识注入，把硬件特性文档喂给系统，LLM就能生成生产级的MTIA内核。

支持的硬件平台：

-NVIDIA GPU：Triton→LLVM-IR→PTX/CUBIN

-AMD GPU：类似NVIDIA的Triton支持

-MTIA（Meta自研）：Triton→RISC-V Binary

MTIA的AI芯片架构

效果咋样？

基准测试：KernelBench 250道题100%通过率，PyTorch ATen 160个算子×3个平台=480种配置100%正确。

生产环境性能提升：

深度学习模型性能提升

-Llama-3.1-8B Attention：4.6倍加速

-Conv1d卷积：6.5倍加速

-Conv2d卷积：4.7倍加速

-MergeBucketizedDense Transform：9.3倍加速

-Batch Event Truncate：9.8倍加速

-MTIA RMSNorm 2D Backward：17倍加速

开发效率：从数周缩短至数小时。

启示

✅Triton现在已经是Meta的主力编程模型，超过8000个内核，增长率60%，超过停滞的CUDA代码库

✅内核覆盖度决定系统部署可行性——缺关键算子会迫使采用分解式服务架构，增加10-20ms网络延迟

✅新兴DSL（CuTe、TLX、Helion）造成5种以上语言的编程模型碎片化，AI代码生成是解决之道

最后唠两句

KernelEvolve的意义不只是自动化写代码，它解决的是一个根本问题：新AI硬件的可编程性门槛。

以前出个新芯片，得等好几年才有成熟的软件生态。现在通过知识注入，AI可以直接学习新硬件特性，立刻开始生成优化代码。

这套方法不光能用在GPU，任何新兴加速器都能受益。以后搞AI芯片的创业公司，不用愁软件生态了，KernelEvolve这种工具就是破局关键。

你觉得AI自动写内核代码会取代手写CUDA专家吗？评论区聊聊。

论文：KernelEvolve:Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

arXiv:2512.23236v3

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP