本文来自微信公众号: 夕小瑶科技说 ,作者:未知艺术家
3月8号,卡帕西分享了他的新开源项目——autosearch。
不到三天,github上已经有19.1k的star。X上的讨论度突破八百万。
这周,卡帕西又更新了项目进展。在autosearch运行两天之后,
AI自主尝试了276次实验
找到了29个有效改进
这些改进叠加之后,对于同一个模型,AI的训练速度提高了大约11%。
AI真的找到了自我改进的方法。
对于这个重大发现,马斯克直接在帖子下面感叹——我们身处奇点。

autosearch是啥?
先给还不熟悉的小伙伴们介绍一下这个新项目——autosearch。

卡帕西把nanochat的LLM训练核心简化成了一个单GPU版本——
630行代码,一张显卡就能跑。
人只需要改提示词,然后用AI agent对模型进行自动优化,理念和操作流程都非常简单:
启动AI,它会自动修改训练代码,运行多次模型训练,并且检查训练结果是否比之前更好。
整个环节有两个亮点:
单次训练的时间控制在5分钟左右
这个过程会无限期循环
如果效果变好了,它就保留这次修改;反之就放弃,然后继续进行下一轮实验。过程中会留下详细的实验日志,同时也有可能得到一个性能更好的模型。
这其实就是创造了一个小型的真实LLM训练环境,然后让AI自己做实验。
最终目标,是让AI代理能够在无需人类干预的情况下,以最快的速度,自主推进迭代和研究。
两天内,AI的改进效率惊人
这项目刚打包出来的时候,卡帕西就在nanochat上跑了初步的小规模测试,总共做了83次完整实验,找到了15个改进点。
当时附的配图是这样的。

图中每个点都代表了一次完整5分钟的LLM训练运行。绿点表示尝试后保留的改进点,剩下的白点都是丢弃的。
这时候模型刚开始跑,改进也比较零散,还出现了一点小乌龙。
比如有网友发现,AI在改进的时候偷偷砍种子作弊。

之后卡帕西也没再干预,让agent在depth=12的模型上自主运行了2天,
这是今天的实验进度,效果非常可观。

两天里,它一共运行了276次实验,总共尝试了大约700次代码修改,最终保留了29个改进点。
这组实验是通过让模型达到与GPT-2类似的训练损失水平所需要的时间,来衡量训练效果的。
这29个改进点,让整个过程的耗时从2.02小时缩短到了1.8小时,相当于提升了大约11%的训练效能。
在卡帕西当“甩手掌柜”的48小时,AI做出的自动修正主要有以下几点:
为无参数QKnorm添加缩放乘数,使得模型的注意力更集中
为Value Embeddings添加正则化
调整带状注意力的保守设置
优化AdamW的beta参数
调整权重衰减调度
优化网络初始化
而这些细节,正是他手动调节时被忽略掉的。
他直言:
我有点惊讶,我第一次尝试这种简单方法就能效果这么好。
要知道在此之前,卡帕西已经优化nanochat很久了。
但在这个基础上,AI又找到了29个他没发现的问题。
这足以证明在某些细节上,AI的表现已经开始超过顶级人类研究员的注意力范围了。
卡帕西手动验证了这些改进是可以叠加的,还能直接搬到更大的depth=24模型上用。
到了这一步,autoresearch就不仅仅只是一个有趣的demo了。
从它的运行,我们可以窥见未来AI自主LLM研究的缩影。
下一步计划:代理工作并行
卡帕西说,这是他第一次完整看到AI代理完全自主地完成神经网络训练的迭代优化流程。
整个“想主意→写代码→跑实验→看结果→规划下一步”的全流程,被Agent自己端到端干了。
20年以来,这都是卡帕西手动干的活。但是这次,AI做的甚至还超出了他手动调优的水平。
卡帕西的下一步计划,是启动“第二轮”实验。同时,他也正在研究多Agent协作、并行工作的可能。
通过不断试验,AI组成的代理群可以从小模型逐渐调适到大模型。
他进一步预测:以后,很有可能所有LLM前沿实验室都会采用AI自动调参。
直到有一天,任何能快速测出来的指标都能让AI自动研究。
到那时候,AI代理会从辅助工具,成为真正的自主研究者。
