AI冲击了传统论文的功能,本文提出推行登记报告新范式,并建议从科研基金资助制度切入启动学术制度连锁变革。 ## 1. AI对传统论文范式的本质冲击 类比惯性、手段-目的倒置、目标固化三层递进的马车夫思维,正在主导当前AI写论文、反AI检测的旧范式内部军备竞赛。 传统论文将知识掌握度验证、思维组织等五项功能打包,对应DIKW金字塔结构,AI已经碾压完成「数据→信息」加工,还能以假乱真模拟「信息→知识」层面产出,让学生可以绕过自主知识建构。 传统论文把「提出好问题」和「执行验证过程」打包评审,重心偏向执行严谨度,形成了「数据漂亮程度优先于问题质量」的激励结构,数据造假是该模式的必然副产品,已经丧失了区分真知识与AI模拟知识的能力。 ## 2. 登记报告:适配AI时代的学术新范式 登记报告将评审重心前移到AI最不擅长的环节:研究者先提出研究问题与检验方案,同行评审通过后原则上接受论文,再按方案执行研究、如实报告结果,二次评审通过后直接发表。 传统论文验证的「执行能力」正在被AI贬值,登记报告验证的「提问能力」,正是AI时代人类学术价值的核心高地。 登记报告从激励结构底层销毁了造假动机:无论结果正负,只要按方案执行、如实汇报就能发表,造假无法带来任何发表优势。 零结果可发表会带来三层深远价值:校正文献生态的偏误,将元分析从侦探工作变为会计工作;加快科学进步速度——科学进步取决于排除错误路径的速度,而非找到正确路径的速度;重新定义研究者信用,含零结果的履历反而会成为深耕诚实的证明。 最优模式是同一研究者既提问也执行,意外发现和零结果是新问题的来源,这是完整的认知循环,但当前博士训练体系与该模式存在结构性冲突。 ## 3. 对未来科研基金资助制度的具体建议 学术制度是发表、基金分配、培养等环节连环绑定的整体,基金分配制度是撬动整个系统变革的最佳杠杆支点——钱流到哪里,行为就流向哪里。 新范式基金与旧范式基金的核心规则完全不同:旧范式申请书核心为「我有初步证据证明X会导致Y」,要求前期有漂亮正向结果,评审看重假说成立可能性,结题看是否发表正向论文;新范式核心为「我有值得检验的问题与对应方案」,前期看重提问记录(含零结果),评审看问题重要性与方案合理性,结题看是否完成检验、是否公开完整数据。 改变基金评审不需要先换评审专家,修改基金申请书与评审表格更有效:将评审问题从「你看不看好这个假说成立」改为「这个问题被干净检验后,你是否会关注结果」,老专家也能完成有效判断。 为解决「问题重要性难以判断」的难点,可先通过AI自动识别三类被忽视的空白问题:引文网络中证据基础悬空的断头路假说、系统性综述结尾明确标注的证据缺口、元分析中无法解释的异质性残差对应未被研究的调节变量;再由研究社群公开评分,筛选出「客观被忽视+主观认为不该被忽视」的问题,进入优先资助池。 资金分配采用Pull认领加Push悬赏结合模式:先开放研究者认领空白问题,按登记报告逻辑评审拨款,一定期限内无人认领的高票空白自动转为悬赏,忽视程度越高、社区认可度越高,悬赏额度越高。 建议国家级科研基金会作为第一推动者,拿出总额的3%-5%设立专项试点基金,完全按新规则运行,旧范式会在硬指标对比下自然落败。 五年后可通过四类硬指标验证新范式有效性:可复现率能否从旧范式的约30%显著提升、每万元投入产出的「被干净检验的明确问题数」对比旧范式的「正向发现论文数」、零结果是否能引发下游跟进研究、基金预算规范性与数据完整公开度。 试点需要保持机构独立性与规则自治,防止新范式核心逻辑被旧范式妥协架空,仅留虚名。 新范式下科学进步的核心度量是「系统性缩小未知空间的速度」,而非旧范式的「突破性发现数量」;伟大科学家的定义也变为「让领域无法假装某个问题不存在的提问者」,荣誉感与叙事会随范式自然迁移。
AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议
2026-07-03 11:54

AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议

本文来自微信公众号: 生态学时空 ,作者:复旦赵斌


很显然,马车夫思维是认知结构问题,而非利益动机问题。马车夫不是不敢看到,而是真的看不到,问题出在三个递进的环节中:


(1)类比惯性(入口):第一次接触新事物时,大脑自动调用最熟悉的框架去理解它。汽车被理解为"能运送更多东西的工具"——只看到增量改进,看不到替代性颠覆。


(2)手段-目的倒置(过程):一旦套上旧框架,当前的手段就被焊死为事情的本质组成部分。马匹从当前不得已的运力手段变成了运输的本质要素。当手段变成目的,养更多马就成了理所当然的终极追求。


(3)目标固化(终局):目标被锁定在旧范式内部,永远无法指向范式之外。他不会问运输的本质是什么,因为在他的世界里,运输和马就是同一个东西。


这三者是递进关系:类比惯性是入口,一旦启动,手段-目的倒置和目标固化就是必然展开。


谁是今天的"马车夫"?


目前的一个典型场景:


学生用AI写论文


→学校用AI检测


→学生用AI反检测


→学校升级检测


→……


这是一场在旧范式内部的军备竞赛,所有参与者都在用AI优化"写论文-查重"这个旧博弈,而没有人问:在AI时代,写论文究竟还在验证什么?


在AI出现之前,写论文承载了多重功能:知识掌握度验证、思维组织能力验证、信息检索与整合能力、表达能力、诚信与自律。这五个功能被打包在一篇论文里,天经地义——就像马车夫认为运输和马是同一个东西。


AI究竟击穿了什么?——DIKW金字塔的视角


理解AI对学术的根本冲击,我们首先需要澄清"知识"的层次结构:


  • 数据(Data):能放进二维表、多维表里的结构化内容,本身不产生价值,只是原始素材。


  • 信息(Information):对数据加工汇总后,有上下文、有意义的内容。


  • 知识(Knowledge):信息结合前因后果、和已有认知碰撞后形成的体系,是能解释现象的规律。


  • 智慧(Wisdom):加入人文思考、价值判断后,能指导行动和改造世界的认知。


我们现在可以看到,AI已经碾压式地完成了"数据→信息"这一层。在"信息→知识"这一层,AI可以模拟,它能给出看起来像"规律"的总结,但没有真正的因果理解。问题在于,对大多数学生来说,AI的模拟已经足以以假乱真,他们不需要自己去和已有认知碰撞,就能产出一个"看起来是知识"的东西。


这带来的深层危机不是学生升不到知识层面,而是AI让升到知识层面这件事变得可以绕过去。而一旦绕过去成为习惯,他们就连什么叫升到知识层面都感知不到了。就像马车夫不是不想理解汽车,而是他的认知框架里根本没有"无马运输"这个类别。


登记报告(Registered Reports):AI时代的新范式


传统论文为什么是"马车"


传统学术论文把"提出好问题"和"执行验证过程"打包在一起评审,且评审重心落在"执行过程是否严谨"上。当AI可以伪装这个执行过程时,传统论文就丧失了区分"真知识"和"AI模拟的知识"的能力。


在传统模式下,研究者面对的激励结构是:


  • 好问题+漂亮数据→发表✅


  • 好问题+不漂亮数据→拒稿❌


  • 坏问题+漂亮数据→也可能发表✅


数据漂亮程度>问题好坏程度。这逼出了一条黑暗路径:先收集数据,再倒推一个"看起来能解释这些数据"的问题。造假是这种倒推模式的必然副产品。


登记报告的结构性优势


登记报告把评审重心前移到AI最不擅长的环节:在没有数据之前,你能不能提出一个真正有价值的问题,并设计一个能检验它的逻辑结构?这一步需要因果直觉、理论洞见、对领域空白的判断——恰恰是DIKW中"信息→知识"那一步里,人类独占的部分。其核心流程是:


  1. 第一阶段:研究者提出研究问题和检验方案→同行评审(评审问题和方案的质量)→通过后,论文原则上被接受。


  2. 第二阶段:研究者按注册方案执行研究→如实报告结果→同行评审(评审执行是否忠实、报告是否完整)→发表。


传统论文验证的是"你会不会执行",而AI正在让"执行"贬值。登记报告验证的是"你会不会提问",而"提问"正是AI时代人类学术价值的最后高地。


登记报告杜绝了造假


这不是因为道德水平提高了,而是因为造假不再带来任何发表优势:


  • 好问题+合理方案→第一阶段发表✅


  • 按方案执行+如实报告结果→第二阶段发表✅


  • 数据不支持假设→仍然发表,因为是"诚实汇报"✅


  • 数据造假→无意义,因为结果好不好都不影响发表✅


这就像汽车消灭了"马会受惊"的问题,不是因为马变得更勇敢了,而是因为根本不需要马了。造假动机被销毁,出于激励结构的釜底抽薪。


零结果也能发表的时候,科学才更真实


目前我们在学术文献中看到的几乎全是正向结果。但实际上数据是有偏的——大量的零结果因为"数据不够漂亮"被塞进抽屉永不发表。这就是p-hacking和文件抽屉效应(file drawer problem),我们今天不展开说。


零结果的公开,将带来三个层次的深远影响:


第一层:校正文献生态的真相。元分析不再需要花70%的精力去"猜"文件抽屉里有多少未发表的零结果——它从一个"侦探工作"变成"会计工作"。


第二层:提高科学的进步速度。当零结果进入公共记录,整个领域可以从他人的失败中学习,而不是每个实验室都独立重复踩同样的坑。科学进步速度不取决于聪明人多快找到正确路径,而取决于所有人多快排除错误路径。


第三层:重新定义研究者的信用。一个研究者的履历里,10篇正向结果+15篇零结果——这说明这个人专注、诚实、在持续深耕一个难题。而20篇全是正向结果的履历,在新范式下反而可能变为一个需要被审视的信号。


提问者与执行者


当"提出问题"和"用数据证实问题"的评审被分开,一个根本问题就浮现出来:这两种贡献是否由同一批人完成?三种可能的模式:


  • 模式A(上下游协作):提问者设计方案→执行者施工。这里有个潜在的问题,就是执行者很可能丧失学术判断力,沦为流水线工人。


  • 模式B(双向循环):同一批人既提问也执行,上一轮执行的"意外发现"成为下一轮提问的种子,零结果中藏着新问题的线索,只有亲手执行过的人才能捕捉到。


  • 模式C(AI执行,人提问):极端的劳动分工。人类研究者的唯一价值是提问。


显然,模式B是最优的,它承认"提问"和"执行"不是分离的工种,而是同一个研究者认知循环的两个阶段。意外发现的捕捉能力不是碰运气,而是需要系统训练的核心学术能力。


然而,我们今天的博士训练体系与模式B有结构性冲突:


旧范式训练模式B需要的训练
怎么把数据讲成漂亮的故事怎么从失败数据里读出新问题的线索
怎么在前人文献里找到"gap"填上怎么在自己的零结果里找到前人从未意识到的问题
怎么捍卫结论不被审稿人驳倒怎么自己推翻自己的假设,并记录推翻过程
一套方法吃一辈子方法服务于问题,问题变则方法变


这需要更根本的制度变革——远超出发表制度本身。


制度变革的连环锁:从哪一环节启动?


学术制度的各环节是连环绑定的:


发表制度→基金分配制度→博士培养制度→导师激励机制→大学排名与资源配置。


我们从哪个环节起步,而且改一个就得改全部。这套锁链需要同时松动,但基金分配制度是最佳的杠杆支点。钱流到哪里,行为就流向哪里。重新定义"什么研究值得资助",是撬动整个系统的阿基米德点。


新范式的基金评审


维度旧范式(马车)新范式(汽车)
申请书核心"我猜测X会导致Y,我有初步证据""我有一个值得检验的问题,这是我的检验方案"
前期基础已发表的漂亮正向结果已发表的"提问记录"——包括零结果和由此衍生的新问题
可行性论证"我预实验成功了,所以能做成""我的方案逻辑自洽,无论结果正负都有学术价值"
评审标准"这个假说成立的可能性大吗?""这个问题重要吗?这个方案能干净地检验它吗?"
结题标准是否发表了正向发现的论文是否按注册方案完成了检验,并公开了完整数据与结果


基金预算的执行情况与数据真实性、以及被资助问题获得社区支持的程度,构成新范式下对基金执行的核心考察维度。


评审专家问题:核心是改评审表格,不是改人


有人可能会有疑问,规则改这么大,去哪儿找那么多评审专家?但是,大家不要忘了,任何范式转移都不是突然换了一波新人。量子力学刚出来的时候,评审它的也是经典物理学训练出来的老专家。关键不是评审专家的年龄和出身,而是评审标准是否被重新定义。


如果一个老专家拿到一份申请书,表格上不是让他判断"这个假说成立的可能性大吗",而是问"这个问题如果被干净地检验了,无论结果正负,你会关注结果吗"——他回答这个问题时,调用的就不是"我看不看好这个猜测",而是"这个领域是否真的缺这一块"。前者是赌,后者是判。老专家完全有能力做后者。所以,基金申请书和评审表格的格式设计本身就定义了什么是"好研究"。改评审表格,比改人更有效。


那么,现在有个需要博弈的点是,优先资助什么样的项目?是选最好的问题?还是选最不该继续被忽视的问题?


新范式基金评审的最大难点在于:"这个问题重要吗"怎么判断?旧范式有一个偷懒的办法——看申请人过去的正向发现来判断他眼光好不好。新范式失去了这个拐杖。一个大胆的替代方案是:研究社群对"最不该继续被忽视的问题"进行公开评分,高票问题进入基金优先支持池。核心逻辑是反转——不是正向评选最好的问题,而是负面筛选被长期忽略但应该被检验的问题。


入选问题需要满足双重过滤:客观上被忽视+主观上被社区认为不该继续被忽视。


其实,AI是可以自动检测被忽视的三类信号的:


信号A:引文网络的断头路(dead-end citation chains)。一篇高被引论文提出了一个假说,所有后续引用都在引用这个假说当作"已被证实的背景",但没有一篇论文直接检验了它。引文网络的拓扑结构可以自动检测——这个节点被大量指向,但它的"证据基础"节点是空的,像一个地基悬空的摩天大楼。


信号B:系统性综述里的证据缺口声明(evidence gap statements)。每篇系统性综述在结尾都有现有文献的局限性和未来研究方向。这些声明本身就是被忽视问题的索引。如果被系统性地提取并汇总,就构成了一张由作者自己认领的空白地图。


信号C:Meta-analysis的异质性残差。当元分析发现不同研究的效应量差异巨大(高I²),但没有任何调节变量能解释这种差异——这就是一个"被忽视的调节变量"的信号。数据告诉你有什么东西在起作用,但没有人研究过它是什么。


这三类信号的共同特点:每个人都默认这不是空白,这是正常的。


资金分配机制:Pull认领+Push悬赏


Pull模式(研究者认领空白):基金机构在"空白地图"上标注已认证的高票问题。研究者自行选择认领:"我认领问题#347,这是我的检验方案。"基金按登记报告逻辑评审方案,通过即拨款。


Push模式(基金悬赏空白):对于被社区高票选出但无人认领的空白,基金机构主动设"悬赏"——加大资助额度,放宽时间限制,降低前期基础要求。信号越强(被忽视程度越高+社区认为越不该继续忽视),悬赏金额越高。


两者可在同一个基金池中并存:先开放认领,一定期限内无人认领的高票空白自动转为悬赏。这样能同时发挥研究者自驱力和资金价格信号的导向作用。


谁先动?——国家级科研基金会


候选推动者包括私人基金会、开放科学社区、顶尖大学,但国家级科研基金会是最有力的第一推动者:资金体量够大,制度合法性天然,一旦跑通可以快速放大。


具体路径:拿出基金总额的3%-5%设立类似登记报告的专项子基金,完全按新规则运行——空白地图自动检测、社区投票排序、先注册方案后拨款、零结果照样结题。两条线并行,让结果说话。


凭什么新范式更值,可以在五年后用硬指标回答。五年后,新范式需要用可对比的硬指标证明自己:


  • 可复现率:新范式资助的研究,可复现率能否从旧范式的~30%显著提升?


  • 资金效率:每万元投入产出的"被干净检验的明确问题数" vs.旧范式每万元产出的"正向发现论文数"。


  • 下游衍生研究:零结果是否真的引发了新问题的跟进,而非发表后沉没。


  • 数据真实性:基金预算使用的规范性、研究数据的完整公开度。


旧范式在有效的新范式面前没有竞争力


当上述指标清晰地展示出新范式的优越性时,旧范式自然落败——不需要制度强制,只需要公平竞争。真正的制度设计要求不是"如何打败旧范式",而是防止新范式被旧范式吸收成一块遮羞布——即防止其核心逻辑(注册方案、零结果结题、社区投票)被一项项妥协掉,最后只剩下一个"登记报告"标签贴在旧评审流程上。这需要试点基金保持机构独立性和规则自治。


我现在就可以想到旧范式的捍卫者会有什么样的质疑,我这里也准备好了答案。


旧范式的捍卫者会有一个看似有力的反驳:可复现率高了,但新范式产出的都是小型检验。旧范式虽然有噪音,但我们产出的是突破性发现。我的回应是:"突破性发现"里有多少是真正经得起复现的?30%的可复现率意味着70%的所谓"大发现"可能是噪音。拿噪音当突破,这不叫产出。大规模复现项目(Open Science Collaboration,Many Labs,SCORE等)正在为这个数字提供不断增长的弹药。更根本的是,"突破性发现"这个概念本身就是旧范式的叙事框架。在新范式里,科学进步不来自某个天才的灵光一现,而来自社区系统性地缩小未知空间的速度。"缩小未知空间的速度"才是新范式的核心度量,不是"突破性发现的数量"。


所以,新范式下的伟大科学家画像也随之改写:一位伟大的科学家,不是那个找到正确答案的人,而是那个让这个领域再也无法假装某个问题不存在的人。他可能一辈子没有提出过一个正确答案,但他提出的正确问题被后来者不断检验,他登记的方案成了社区的公共基础设施。


有人会问:如果"找到答案的终局性爽感"没有了,最优秀的年轻人会不会觉得新范式"不过瘾"?


答案是:荣誉感和审美感受是范式塑造的产物,不是人性常量。中世纪骑士的最高荣誉是马上比武的胜利,今天没人觉得那比一个诺贝尔奖更荣耀。找到答案的爽感被旧范式神圣化了,不是因为它天然更爽,而是因为旧范式把它供奉在荣誉体系的顶点。当新范式把提出不可忽视的问题供奉在新顶点上,年轻人自然会开始品味提问的爽感。荣誉会迁移。叙事会改写。教科书会把"第一个提出这个问题的人"印成黑体字。


马车和马车夫现在还有,可能永远不会消失,但它们的主流地位已经变了。看清未来的主流是什么——这就是"马车夫思维"反向训练的终点。在AI时代,学术的主流价值不在执行而在提问,不在发现答案而在定义问题,不在产出正向结果而在系统性地缩小未知空间。


所以,登记报告不是论文格式的微调,它是这个新主流的最早的合法港口。从发表制度到基金分配,从博士训练到荣誉体系——整个学术制度的连锁变革,需要从这座港口起航。


而关键就在于:不要再问AI能帮我们写多少论文,而要问:当AI可以写论文的时候,论文本身还应该是什么。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP