21岁作者从AI可解释性研究转向智能建构实践，通过亲身经历揭示：真正的理解源于建构过程，而非被动观察；在不确定中行动比等待准备更能加速成长。 ## 1. 从解释智能到建构智能的认知跃迁 - 作者最初执着于通过可解释性研究理解智能本质，但在完成首篇ICLR论文后产生根本性质疑：现有方法能否真正触及智能核心？ - 关键转折点在于意识到Transformer等架构只是临时假设，历史证明建构本身能催生新理解（如AlexNet重塑视觉认知）。 - 最终形成闭环认知：解释与建构互为手段，决定放弃三年研究积累转向模型架构实践。 ## 2. 突破标准路径的生存模式转变 - 对比梁文峰等无学位却推动AGI的案例，质疑传统学术路径的必要性："五年后才有资格做重要事"的假设可能错失窗口期。 - 选择"Compute-on-the-fly"模式：在缺乏安全网时直接行动（如发100封求职信），通过即时反馈迭代而非等待完全准备。 - 特别强调：伟大不可被计划（如OpenAI/Youtube转型案例），愿景应是方向感而非详细蓝图。 ## 3. 高密度协作环境的加速效应 - 北京创业社区环境打破年龄界限，本科生/高中生通过高频反馈（每晚集体讨论）实现陡峭成长曲线。 - 实践收获远超结果：首次协同设计算法与工程，改进位置编码等底层架构虽未成功却重塑工程思维。 - 关键数据：一周内密集接触100名AI研究者，快速建立判断力与人脉网络。 ## 4. 建构实践带来的认知升级 - 参与语言模型训练后获得核心洞察：亲手创造是理解的必要条件（呼应费曼理论）。 - 可解释性研究存在时代盲区——过度注解即将过时的架构，而真正的突破来自创造新范式。 - 作者现实验证：通过pretraining实习接触模型能力边界，比纯理论研究更接近智能本质。 ## 5. 不确定性的价值重构 - 新旧路径根本差异：传统学术有明确里程碑和安全网，创新路径需直面"失败即真失败"的生存压力。 - 重要结论：二十岁的少年意气具有时效性，体系化可能消磨改变世界的原始冲动。 - 最终选择：接受不确定性作为常态，"很多路是走过去才存在的"。

2026-04-13 16:35

21岁，我从理解智能走向建构智能

董科含©

本文来自微信公众号：董科含，作者：徐旸

有些人你一眼就知道，他不会停在既有路径上。我第一次和他聊的时候，就能感觉到他对智能的执念，不断质疑，持续追问，以及对自我诚实到近乎残酷的标准。这种人，一旦开始行动，变化会很快。

这篇文章记录的是一种跃迁。从理解走向建构，从等待准备走向直接起飞，从安全感走向不确定。过程里有困惑、有挣扎，但更重要的是，你能看到一个人如何亲手改变自己的轨迹。

我为他骄傲。因为他选择了一种更难、更真实的活法。如果你也在某个节点犹豫，这篇文章值得你认真读一遍。

那一年，我21岁，在浙大做AI research，方向是可解释性。

有一段时间，我越来越无法说服自己继续沿着原来的路走下去，也不知道如果就这样一直走下去，自己最终会到哪里。

从起点到疑惑

刚进浙大的时候，我就开始做与AI相关的research了。不过，我对于智能的好奇有一个更早的契机。

我是一个过度思考者，我的大脑永远停不下来。但正是因为在自己的思维里待得太久，我慢慢开始对思维和智能本身产生好奇。那时我在读高中，因为和班主任谈判换来的条件，我可以不用上简单的课程，而把时间投入自己感兴趣的数理知识上。也正是那个时候，我通过3Blue1Brown第一次看见了神经网络的世界。那时候的AI远远称不上智能，但是我隐约觉得，也许沿着这条路走下去，我会得到那个关于思维和智能的答案。

正因为这个起点，当时的我更喜欢问为什么——我觉得大多数AI研究太工程化，不够science，而智能应该是一个可以被真正理解的、不只是被造出来的东西。于是我决定开始做Interpretability和Trustworthy ML，试图从模型内部理解智能，以及确保它的行为是可控的——如果你能理解一个系统，那么它就是可靠的。从上海交大到美国的实验室，我一路向前，直到2025年初写完了我的第一篇一作论文。

但我清楚地记得，提交论文的那一刻，感觉并不是喜悦，而是疑惑。我问了自己很多令人不舒服的追问：我们现在采用的方式，最终真的能通向对智能的理解吗？还是只是在观察一些局部模式，给它们起个漂亮名字？我在小模型上得出的结论，真的能scale up吗？我隐约感觉这并不能得到我想要的理解，但我没有足够的证据，我只能继续往前走。

而彼时的世界正为DeepSeek时刻感到震惊，梁文峰走出了一条极其锋利的技术理想主义之路，工业界的天才们正在火速推进AGI的历史进程；而我看到这个领域最重要的一些人，并没有走那条我以为必须走的路：梁文峰没有PhD学位，Alec Radford也没有，Anthropic联创Chris Olah甚至没有大学学位。我开始怀疑，自己是否正在为一条看似正确的路付出太多：如果继续读PhD，沿着那条最标准的路径走下去，五年后的我会变成什么样的人？而到了那时，我才算真正有资格去做那些重要的事吗？

我极度渴望走一条真正独特、有价值的路，但当时的我找不到出口。更让我害怕的，是看不见的倒计时——我很清楚，这种二十岁出头的少年意气不会一直存在。等到更往后，我还能继续保持改变世界的热情吗？还是已经被体系招安，再用"大家都是这样的"来完成可悲的自我安慰呢？

我到底在做什么？？

出现转机

看不见路的时候，人在旧轨道上的状态不是静止的，而是混沌的。

我强迫自己去参加各种活动，结果发现绝大多数毫无意义；那段时间我的执行力处于崩盘状态，连最简单的日常任务都陷入了极度的启动困难。那是一段充满挫败感和荒诞感的盲目探索，但少数几次有效的连接，影响足够大。

我不想把这段经历写成一个"努力终有回报"的故事——这之间没有任何必然的因果关系。很多事情发生在一个和其他日子没什么区别的普通瞬间，它当时看起来一点都不特别。只是后来回头看，我才知道，如果那天我没有回那条消息，后来的一切都不会发生。

我先是通过社交媒体认识了一个浙大创业团队的朋友，又通过他认识了现在的朋友Jingzhe。在那场长谈里，我意识到我太久没有那种被闪电击中的感觉了。我极度渴望的那种纯粹的技术激情并没有死，我只是以前待错了房间。

再后来，Jingzhe给我发来一条消息：“有一个机会，你绝对不能错过。”

又经过了一系列的筛选，我见到了科含（Kehan），一个正在搭建面向年轻人的创业与技术环境的人。在那次交流里，他没有试图说服我去做一个短期更容易出成绩的方向。他和我聊的是最底层的模型架构，聊产品，聊如何在这个时代用基础的突破去通向一家伟大的公司。他提到自己在做一件面向年轻人的事，把一群人放在一起，由DeepSeek的袁境阳老师（NSA作者）带着大家，专门去解决那些真正重要的问题。

我没有理由不去。直觉告诉我，在那里我能看见那些二十几岁就做出重要工作的人，他们眼中的世界是什么样的。

于是，我买了一张去北京的票。

在建构当中获得理解

在北京，我第一次如此强烈地意识到，年龄从来不是判断一个人的核心维度，真正重要的是认知和成长速度。周围的人大多数是本科生，也有高中生甚至更小，但他们的成长斜率却都极端陡峭。我也第一次进入这样极为特殊的环境：没有人给我安排任务，也根本就没有什么标准路径，一切都是自由的。我们白天各自做自己的任务，晚上挤在一张桌子边，讲自己完成的事情以及得到的新见解。我们会互相追问，每一个观点都会得到很多的反馈和讨论，而很多新的判断正是在这种交互中生长出来的。

就是在那种高频的反馈里，我开始真正接触模型架构层面的工作，开始和朋友们一起改位置编码，写算子。从现在回头看，那并不是一个特别成功的改进，但过程里的收获比结果重要得多。我第一次开始想算法和工程怎么协同设计，第一次把可扩展性当成一个该认真对待的问题。更深的变化是，我开始学会用工程的方式思考：不是先想一个听起来聪明的idea再把它强行塞进系统里，而是先问什么东西值得改进，怎么样的改进能真正有效。

而这些观点是我过去做研究时完全没想过的。做工程、改进模型架构，看似和纯粹的理解很遥远，但它们其实是同一件事的两面。这个想法在我脑子里越来越清晰，直到我不得不把它写下来。我写了那篇blog，Interpreting for the Future,Not the Past。

在那篇文章里，我记录了可解释性研究的一个盲区：绝大多数当时的研究都在解释已经存在的模型，但我们今天解释的架构，也许会在某一天成为历史。更根本的问题是，当时几乎所有的研究都默认Transformer是必须理解的自然真理。但架构不是自然现象，Transformer只是一个目前极其成功的假设。

我们所使用的工具塑造了我们的认识论。当你长期握着名为解释的锤子，长期研究着已有的模型结构，你就会倾向于相信这就是智能本来的样子。但事实上，真正的理解不该只停留在对既有结构的注解上。

历史告诉我们，建构本身也会产生理解。AlexNet的成功，让人们重新认识到，视觉能力未必要来自人工设计的特征，而完全可能来自神经网络通过训练学到的表示；o1与DeepSeek R1的出现，也让人重新思考，大模型的推理能力究竟有多少可以在强化学习中被塑造和释放。这些转变从来不只是靠论证完成的，更是有人把直觉变成了一个跑得起来的东西，摆在所有人面前。而建构的过程本身，就是最有力的理解。

我意识到我要做的不再是单纯的解释或单纯的建构，而是一个闭环：两者互为手段，互为结果。这个想法让我做了一个很难的决定——在写完那篇ICLR论文之后，我决定不再把原来的方向当作未来几年最主要的路径，即使我已经为它准备了三年。我想Build，我想Scale up，我想更直接地走向智能的建构，再从中获得更深刻的理解。

Compute-on-the-fly

大多数人总想有了七八成把握再出发，可真正有价值的事，从不会等你准备好。不要站在安全的跑道上，把整架飞机设计完再起飞。先把自己踹下悬崖，然后在下坠的过程中，把机翼拼出来。这就是更难的地方——不是技术上更难,而是你必须在没有安全网的情况下起飞。

我把这个想法告诉了科含。想法本身我已经很清楚了，但从想清楚到真正变成现实，中间隔着一条我完全不知道怎么跨越过去的鸿沟。

他没有直接告诉我怎么办，只是一直在问问题。问得很具体，有时候一个细节能展开出好几个新的疑问。有好多次我完全答不上来，只能说我需要再想想。最后他说了一句：不要准备，立刻起飞。

接下来的几周我开始真的动手，即使内心充满犹豫。我开始给研究者们发私信，从一开始连消息都不知道怎么发，到好几次幸运地得到很长的回复和建议。后来我发现，这件事并没有想象中那么难，关键是先发出第一条，按下发送键；我开始写blog，通宵写项目，build in public。那一周我聊了一百个年轻的AI researcher和founder，在开始之前，我完全想不到加速度会这么快。一周之后，我已经不需要想怎么开场了。我开始能快速判断一个人是否值得深聊，也开始有人反过来找我。

当然这些并不是一帆风顺的。每次卡住的时候，科含会提醒我，从努力到见效需要时间。我记住了这句话。虽然那段时间并没有立刻取得非常重要的突破，但我能明显感觉到循环正在跑起来——我在获得一种momentum，我开始相信动手做事的力量。

那段时间里，很多事情在同时发生。我和科含每周都会定期meeting，有一次他说，不要再叫他老师，"我们是平等的"。他提醒我要更强硬，要敢于维护边界，要能在压力下顶住；我记得很多个凌晨四五点的杭州，在浙大熬到深夜，抬头拍下漫天繁星发给朋友，说我一定要成为其中的一颗；我的研究兴趣彻底从解构走向建构，我越来越相信费曼那句话背后的精神：你亲手创造不了的东西，你很难真正理解它。

这些事情交织在一起，慢慢把我推向一个决定：去面试pretraining team的实习机会。放在几个月前，这几乎是我不敢想的跨度，我也许会继续找一个实验室，发几篇模型架构的论文，然后才敢去面试。可很多事情只有真的去试，才会知道自己现在站在哪里。一个多月后，我拿到了一个非常好的pretraining team offer，开始真正参与语言模型的训练。我终于有机会去触碰那些决定模型能力边界的部分，哪怕只是从最小的改动开始。

但比offer更重要的，是我在这个过程中开始理解一件事：Compute-on-the-fly。

思考和行动之间有一个最佳比例，而我过去一直在思考那一侧停留太久。改变发生在我开始直接动手的时候:投简历，被拒绝一百次，然后在反馈里修正;转方向，面对不解，继续往前，直到得到支持。我没有等自己完全准备好。我只是先行动,然后在行动里一点点长出了思考无法给我的东西——新的判断、新的性格、新的秩序。

没有人是先知，伟大是不可被提前计划的。如果路径能被提前算死，AGI早就实现了。早期的OpenAI做过游戏AI，做过RL，没有人预见到今天的样子；YouTube最初是个约会网站，创始人发现用户在做完全不同的事——上传视频，于是整个方向就变了。愿景不是一张详细的蓝图，而是一个强烈的方向感。你知道自己想去哪，知道自己非去不可，这就够了。

这就是compute-on-the-fly的字面意思：你需要把自己所需要的一切在过程中计算出来。资源、支持、方向、愿景——甚至是运气。因为运气从来不是凭空降临的东西，它是搜索的副产物，是世界对某种特定交互模式的奖励。

结语

如果现在再给我一次机会，让我回到那篇论文提交的那一刻，我还是会停下来。我还不知道这条路会带我去哪里，但我知道自己已经走上了一条正确但更困难的路。

不是因为pretraining比可解释性技术上更难，而是对我来说，踏入新的路就意味着选择了新的生存模式。旧的路径是已知的，你可以等准备好了再出发：先发够论文，积累reputation，读完PhD，然后才去做真正重要的事。即使失败，你也只是换个方向，安全网一直在那里；而新的路径是未知的，没有人告诉你什么时候准备好了，没有milestone证明你走对了。你必须在不确定中出发，失败就是真的失败。

这就是Compute-on-the-fly。它不是一个选项，而是一种生存模式。这才是真正更难的、也是更有趣的地方。

我没法告诉你这条路会通向哪里，因为没有人能提前看清全部的路。

很多路，是走过去以后才存在的。

而我已经不打算回头了。

Acknowledgement

感谢Kehan，感谢那些在北京一起写代码、彻夜长谈的朋友们——这条路上我不是一个人。感谢Nathan、Luotian、Yixiang、Changxiu、Liuchong、Yimo、Jingzhe、Kerman、Koutian、Xingwei、Liuyue、Sophie、Jiaxing以及所有帮我看过这篇文章不同版本草稿的朋友，你们的每一次反馈都让这些文字离我真正想说的话更近了一步。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP