21岁作者从AI可解释性研究转向智能建构实践,通过亲身经历揭示:真正的理解源于建构过程,而非被动观察;在不确定中行动比等待准备更能加速成长。 ## 1. 从解释智能到建构智能的认知跃迁 - 作者最初执着于通过可解释性研究理解智能本质,但在完成首篇ICLR论文后产生根本性质疑:现有方法能否真正触及智能核心? - 关键转折点在于意识到Transformer等架构只是临时假设,历史证明建构本身能催生新理解(如AlexNet重塑视觉认知)。 - 最终形成闭环认知:解释与建构互为手段,决定放弃三年研究积累转向模型架构实践。 ## 2. 突破标准路径的生存模式转变 - 对比梁文峰等无学位却推动AGI的案例,质疑传统学术路径的必要性:"五年后才有资格做重要事"的假设可能错失窗口期。 - 选择"Compute-on-the-fly"模式:在缺乏安全网时直接行动(如发100封求职信),通过即时反馈迭代而非等待完全准备。 - 特别强调:伟大不可被计划(如OpenAI/Youtube转型案例),愿景应是方向感而非详细蓝图。 ## 3. 高密度协作环境的加速效应 - 北京创业社区环境打破年龄界限,本科生/高中生通过高频反馈(每晚集体讨论)实现陡峭成长曲线。 - 实践收获远超结果:首次协同设计算法与工程,改进位置编码等底层架构虽未成功却重塑工程思维。 - 关键数据:一周内密集接触100名AI研究者,快速建立判断力与人脉网络。 ## 4. 建构实践带来的认知升级 - 参与语言模型训练后获得核心洞察:亲手创造是理解的必要条件(呼应费曼理论)。 - 可解释性研究存在时代盲区——过度注解即将过时的架构,而真正的突破来自创造新范式。 - 作者现实验证:通过pretraining实习接触模型能力边界,比纯理论研究更接近智能本质。 ## 5. 不确定性的价值重构 - 新旧路径根本差异:传统学术有明确里程碑和安全网,创新路径需直面"失败即真失败"的生存压力。 - 重要结论:二十岁的少年意气具有时效性,体系化可能消磨改变世界的原始冲动。 - 最终选择:接受不确定性作为常态,"很多路是走过去才存在的"。
21岁,我从理解智能走向建构智能
2026-04-13 16:35

21岁,我从理解智能走向建构智能

本文来自微信公众号: 董科含 ,作者:徐旸


有些人你一眼就知道,他不会停在既有路径上。我第一次和他聊的时候,就能感觉到他对智能的执念,不断质疑,持续追问,以及对自我诚实到近乎残酷的标准。这种人,一旦开始行动,变化会很快。


这篇文章记录的是一种跃迁。从理解走向建构,从等待准备走向直接起飞,从安全感走向不确定。过程里有困惑、有挣扎,但更重要的是,你能看到一个人如何亲手改变自己的轨迹。


我为他骄傲。因为他选择了一种更难、更真实的活法。如果你也在某个节点犹豫,这篇文章值得你认真读一遍。


那一年,我21岁,在浙大做AI research,方向是可解释性。


有一段时间,我越来越无法说服自己继续沿着原来的路走下去,也不知道如果就这样一直走下去,自己最终会到哪里。


从起点到疑惑


刚进浙大的时候,我就开始做与AI相关的research了。不过,我对于智能的好奇有一个更早的契机。


我是一个过度思考者,我的大脑永远停不下来。但正是因为在自己的思维里待得太久,我慢慢开始对思维和智能本身产生好奇。那时我在读高中,因为和班主任谈判换来的条件,我可以不用上简单的课程,而把时间投入自己感兴趣的数理知识上。也正是那个时候,我通过3Blue1Brown第一次看见了神经网络的世界。那时候的AI远远称不上智能,但是我隐约觉得,也许沿着这条路走下去,我会得到那个关于思维和智能的答案。


正因为这个起点,当时的我更喜欢问为什么——我觉得大多数AI研究太工程化,不够science,而智能应该是一个可以被真正理解的、不只是被造出来的东西。于是我决定开始做Interpretability和Trustworthy ML,试图从模型内部理解智能,以及确保它的行为是可控的——如果你能理解一个系统,那么它就是可靠的。从上海交大到美国的实验室,我一路向前,直到2025年初写完了我的第一篇一作论文。


但我清楚地记得,提交论文的那一刻,感觉并不是喜悦,而是疑惑。我问了自己很多令人不舒服的追问:我们现在采用的方式,最终真的能通向对智能的理解吗?还是只是在观察一些局部模式,给它们起个漂亮名字?我在小模型上得出的结论,真的能scale up吗?我隐约感觉这并不能得到我想要的理解,但我没有足够的证据,我只能继续往前走。


而彼时的世界正为DeepSeek时刻感到震惊,梁文峰走出了一条极其锋利的技术理想主义之路,工业界的天才们正在火速推进AGI的历史进程;而我看到这个领域最重要的一些人,并没有走那条我以为必须走的路:梁文峰没有PhD学位,Alec Radford也没有,Anthropic联创Chris Olah甚至没有大学学位。我开始怀疑,自己是否正在为一条看似正确的路付出太多:如果继续读PhD,沿着那条最标准的路径走下去,五年后的我会变成什么样的人?而到了那时,我才算真正有资格去做那些重要的事吗?


我极度渴望走一条真正独特、有价值的路,但当时的我找不到出口。更让我害怕的,是看不见的倒计时——我很清楚,这种二十岁出头的少年意气不会一直存在。等到更往后,我还能继续保持改变世界的热情吗?还是已经被体系招安,再用"大家都是这样的"来完成可悲的自我安慰呢?


我到底在做什么??


出现转机


看不见路的时候,人在旧轨道上的状态不是静止的,而是混沌的。


我强迫自己去参加各种活动,结果发现绝大多数毫无意义;那段时间我的执行力处于崩盘状态,连最简单的日常任务都陷入了极度的启动困难。那是一段充满挫败感和荒诞感的盲目探索,但少数几次有效的连接,影响足够大。


我不想把这段经历写成一个"努力终有回报"的故事——这之间没有任何必然的因果关系。很多事情发生在一个和其他日子没什么区别的普通瞬间,它当时看起来一点都不特别。只是后来回头看,我才知道,如果那天我没有回那条消息,后来的一切都不会发生。


我先是通过社交媒体认识了一个浙大创业团队的朋友,又通过他认识了现在的朋友Jingzhe。在那场长谈里,我意识到我太久没有那种被闪电击中的感觉了。我极度渴望的那种纯粹的技术激情并没有死,我只是以前待错了房间。


再后来,Jingzhe给我发来一条消息:“有一个机会,你绝对不能错过。”


又经过了一系列的筛选,我见到了科含(Kehan),一个正在搭建面向年轻人的创业与技术环境的人。在那次交流里,他没有试图说服我去做一个短期更容易出成绩的方向。他和我聊的是最底层的模型架构,聊产品,聊如何在这个时代用基础的突破去通向一家伟大的公司。他提到自己在做一件面向年轻人的事,把一群人放在一起,由DeepSeek的袁境阳老师(NSA作者)带着大家,专门去解决那些真正重要的问题。


我没有理由不去。直觉告诉我,在那里我能看见那些二十几岁就做出重要工作的人,他们眼中的世界是什么样的。


于是,我买了一张去北京的票。


在建构当中获得理解


在北京,我第一次如此强烈地意识到,年龄从来不是判断一个人的核心维度,真正重要的是认知和成长速度。周围的人大多数是本科生,也有高中生甚至更小,但他们的成长斜率却都极端陡峭。我也第一次进入这样极为特殊的环境:没有人给我安排任务,也根本就没有什么标准路径,一切都是自由的。我们白天各自做自己的任务,晚上挤在一张桌子边,讲自己完成的事情以及得到的新见解。我们会互相追问,每一个观点都会得到很多的反馈和讨论,而很多新的判断正是在这种交互中生长出来的。


就是在那种高频的反馈里,我开始真正接触模型架构层面的工作,开始和朋友们一起改位置编码,写算子。从现在回头看,那并不是一个特别成功的改进,但过程里的收获比结果重要得多。我第一次开始想算法和工程怎么协同设计,第一次把可扩展性当成一个该认真对待的问题。更深的变化是,我开始学会用工程的方式思考:不是先想一个听起来聪明的idea再把它强行塞进系统里,而是先问什么东西值得改进,怎么样的改进能真正有效。


而这些观点是我过去做研究时完全没想过的。做工程、改进模型架构,看似和纯粹的理解很遥远,但它们其实是同一件事的两面。这个想法在我脑子里越来越清晰,直到我不得不把它写下来。我写了那篇blog,Interpreting for the Future,Not the Past。


在那篇文章里,我记录了可解释性研究的一个盲区:绝大多数当时的研究都在解释已经存在的模型,但我们今天解释的架构,也许会在某一天成为历史。更根本的问题是,当时几乎所有的研究都默认Transformer是必须理解的自然真理。但架构不是自然现象,Transformer只是一个目前极其成功的假设。


我们所使用的工具塑造了我们的认识论。当你长期握着名为解释的锤子,长期研究着已有的模型结构,你就会倾向于相信这就是智能本来的样子。但事实上,真正的理解不该只停留在对既有结构的注解上。


历史告诉我们,建构本身也会产生理解。AlexNet的成功,让人们重新认识到,视觉能力未必要来自人工设计的特征,而完全可能来自神经网络通过训练学到的表示;o1与DeepSeek R1的出现,也让人重新思考,大模型的推理能力究竟有多少可以在强化学习中被塑造和释放。这些转变从来不只是靠论证完成的,更是有人把直觉变成了一个跑得起来的东西,摆在所有人面前。而建构的过程本身,就是最有力的理解。


我意识到我要做的不再是单纯的解释或单纯的建构,而是一个闭环:两者互为手段,互为结果。这个想法让我做了一个很难的决定——在写完那篇ICLR论文之后,我决定不再把原来的方向当作未来几年最主要的路径,即使我已经为它准备了三年。我想Build,我想Scale up,我想更直接地走向智能的建构,再从中获得更深刻的理解。


Compute-on-the-fly


大多数人总想有了七八成把握再出发,可真正有价值的事,从不会等你准备好。不要站在安全的跑道上,把整架飞机设计完再起飞。先把自己踹下悬崖,然后在下坠的过程中,把机翼拼出来。这就是更难的地方——不是技术上更难,而是你必须在没有安全网的情况下起飞。


我把这个想法告诉了科含。想法本身我已经很清楚了,但从想清楚到真正变成现实,中间隔着一条我完全不知道怎么跨越过去的鸿沟。


他没有直接告诉我怎么办,只是一直在问问题。问得很具体,有时候一个细节能展开出好几个新的疑问。有好多次我完全答不上来,只能说我需要再想想。最后他说了一句:不要准备,立刻起飞。


接下来的几周我开始真的动手,即使内心充满犹豫。我开始给研究者们发私信,从一开始连消息都不知道怎么发,到好几次幸运地得到很长的回复和建议。后来我发现,这件事并没有想象中那么难,关键是先发出第一条,按下发送键;我开始写blog,通宵写项目,build in public。那一周我聊了一百个年轻的AI researcher和founder,在开始之前,我完全想不到加速度会这么快。一周之后,我已经不需要想怎么开场了。我开始能快速判断一个人是否值得深聊,也开始有人反过来找我。


当然这些并不是一帆风顺的。每次卡住的时候,科含会提醒我,从努力到见效需要时间。我记住了这句话。虽然那段时间并没有立刻取得非常重要的突破,但我能明显感觉到循环正在跑起来——我在获得一种momentum,我开始相信动手做事的力量。


那段时间里,很多事情在同时发生。我和科含每周都会定期meeting,有一次他说,不要再叫他老师,"我们是平等的"。他提醒我要更强硬,要敢于维护边界,要能在压力下顶住;我记得很多个凌晨四五点的杭州,在浙大熬到深夜,抬头拍下漫天繁星发给朋友,说我一定要成为其中的一颗;我的研究兴趣彻底从解构走向建构,我越来越相信费曼那句话背后的精神:你亲手创造不了的东西,你很难真正理解它。


这些事情交织在一起,慢慢把我推向一个决定:去面试pretraining team的实习机会。放在几个月前,这几乎是我不敢想的跨度,我也许会继续找一个实验室,发几篇模型架构的论文,然后才敢去面试。可很多事情只有真的去试,才会知道自己现在站在哪里。一个多月后,我拿到了一个非常好的pretraining team offer,开始真正参与语言模型的训练。我终于有机会去触碰那些决定模型能力边界的部分,哪怕只是从最小的改动开始。


但比offer更重要的,是我在这个过程中开始理解一件事:Compute-on-the-fly。


思考和行动之间有一个最佳比例,而我过去一直在思考那一侧停留太久。改变发生在我开始直接动手的时候:投简历,被拒绝一百次,然后在反馈里修正;转方向,面对不解,继续往前,直到得到支持。我没有等自己完全准备好。我只是先行动,然后在行动里一点点长出了思考无法给我的东西——新的判断、新的性格、新的秩序。


没有人是先知,伟大是不可被提前计划的。如果路径能被提前算死,AGI早就实现了。早期的OpenAI做过游戏AI,做过RL,没有人预见到今天的样子;YouTube最初是个约会网站,创始人发现用户在做完全不同的事——上传视频,于是整个方向就变了。愿景不是一张详细的蓝图,而是一个强烈的方向感。你知道自己想去哪,知道自己非去不可,这就够了。


这就是compute-on-the-fly的字面意思:你需要把自己所需要的一切在过程中计算出来。资源、支持、方向、愿景——甚至是运气。因为运气从来不是凭空降临的东西,它是搜索的副产物,是世界对某种特定交互模式的奖励。


结语


如果现在再给我一次机会,让我回到那篇论文提交的那一刻,我还是会停下来。我还不知道这条路会带我去哪里,但我知道自己已经走上了一条正确但更困难的路。


不是因为pretraining比可解释性技术上更难,而是对我来说,踏入新的路就意味着选择了新的生存模式。旧的路径是已知的,你可以等准备好了再出发:先发够论文,积累reputation,读完PhD,然后才去做真正重要的事。即使失败,你也只是换个方向,安全网一直在那里;而新的路径是未知的,没有人告诉你什么时候准备好了,没有milestone证明你走对了。你必须在不确定中出发,失败就是真的失败。


这就是Compute-on-the-fly。它不是一个选项,而是一种生存模式。这才是真正更难的、也是更有趣的地方。


我没法告诉你这条路会通向哪里,因为没有人能提前看清全部的路。


很多路,是走过去以后才存在的。


而我已经不打算回头了。


Acknowledgement


感谢Kehan,感谢那些在北京一起写代码、彻夜长谈的朋友们——这条路上我不是一个人。感谢Nathan、Luotian、Yixiang、Changxiu、Liuchong、Yimo、Jingzhe、Kerman、Koutian、Xingwei、Liuyue、Sophie、Jiaxing以及所有帮我看过这篇文章不同版本草稿的朋友,你们的每一次反馈都让这些文字离我真正想说的话更近了一步。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP