如果你是一名科研工作者,你大概已经注意到身边发生的变化:AI辅助写作工具在提升科研效率的同时,也引发了对科学质量的深层担忧。一项发表于《Science》的研究通过分析210万篇预印本论文,系统揭示了大语言模型(LLMs)对科学生产的双刃剑效应:它既带来了生产力的跃升和公平性的改善,也瓦解了传统的质量判断标准。 ## 研究背景:从技术焦虑到实证分析 科学与技术历来相互塑造,大语言模型的出现被视为又一次范式转变。研究团队旨在通过大规模实证数据,回答一个核心问题:AI是真正提升了科研质量,还是仅仅制造了海量“学术垃圾”? ## 研究方法:海量数据与精巧设计 1. 研究团队收集了2018年至2024年arXiv、bioRxiv和SSRN三大预印本平台的超过210万篇论文数据。 2. 他们通过训练AI检测算法来识别“AI辅助写作”的文本特征,并采用“事件研究法”对比使用AI与未使用AI的作者群体。 3. 研究质量通过“预印本最终是否经同行评审发表”和“专家评审分数”两个指标来衡量,以控制个体差异,精准评估LLM的边际效应。 ## 研究结果:效率红利与信号失效 ### 生产力显著提升 AI对科研产出具有立竿见影的提速效果。使用LLM后,研究者在arXiv、bioRxiv和SSRN上的论文产出量分别提高了36.2%、52.9%和59.8%。 ### 拉平学术表达的语言门槛 **非英语母语学者获益最大**,亚洲机构的学者在bioRxiv和SSRN上的生产力增幅高达80%至89%,远超英美学者,AI正在有效缩小科学界的“语言红利”差距。 ### 拓宽知识发现的边界 与担忧相反,使用AI辅助检索的学者引用了更多书籍、较新的论文以及非热门研究,这表明LLM有助于挖掘被淹没的冷门知识,增加了引用的多样性。 ### 传统质量信号的瓦解 **这是研究最关键的发现**:在AI辅助的论文中,语言越华丽复杂,其同行评审得分和发表概率反而越低。因为AI使得“看起来专业”的文本变得廉价,写作质量不再能可靠反映研究内容的深度。 ## 研究意义:科学评价体系的挑战与重生 1. **“语言图灵测试”已死**:编辑和审稿人无法再依赖写作流畅度作为判断研究质量的捷径,必须回归对逻辑、数据和方法的深度审视。 2. **警惕“学术泡沫”**:生产力的普遍暴涨可能导致“稿件洪流”,增加科学家筛选有价值工作的负担。 3. **呼唤“AI对冲AI”**:文章提出未来或需开发“AI审稿代理”,以辅助核查论文的方法论一致性和声明的准确性。 4. **重新界定科学诚信**:“AI辅助写作”与“AI代替思考”的界限模糊,对学术诚信和作者身份的界定提出了新挑战。
当AI介入论文写作:一场“精致的平庸”的狂欢
2025-12-30 11:11

当AI介入论文写作:一场“精致的平庸”的狂欢

本文来自微信公众号: PsyCulture&Science ,作者:PCS & GPT,原文标题:《Science | 当AI介入论文写作:一场“精致的平庸”的狂欢》


如果你是一名科研工作者,你大概已经注意到身边发生的变化:越来越多的同行开始使用ChatGPT或类似的大语言模型(LLMs)来辅助写作、润色文稿、甚至检索文献。这些工具似乎让科研变得更高效了——但这种"高效"意味着什么?它是在帮助科学进步,还是在制造新的问题?


2025年12月,一篇发表在Science上的政策分析文章给出了迄今为止最系统的实证答案。来自康奈尔大学和加州大学伯克利分校的研究团队分析了超过210万篇预印本论文,揭示了大语言模型对科学生产的深远影响:它提升了生产力、降低了语言门槛、拓宽了知识发现的边界——但也正在瓦解我们用于判断研究质量的传统信号(Kusumeg et al.,2025)。


研究背景:除了焦虑,我们更需要证据


科学与技术创新向来相互塑造。显微镜让我们看见了微观世界,基因测序技术重新定义了生物学研究,而计算机的普及彻底改变了数据分析的方式。每一次重大技术突破,都会深刻影响科学知识的生产方式。


大语言模型的出现,是又一次范式转变。自2022年底ChatGPT发布以来,LLM迅速渗透到几乎所有学科领域。研究者们已经证明,AI在蛋白质结构预测、新材料发现、社会科学建模等具体任务中展现出惊人潜力。但一个更宏观的问题悬而未决:AI是让科学家从繁琐的文字工作中解脱出来,从而不仅提高了产量,还提升了质量?还是说,它仅仅制造了海量的、看似专业实则空洞的“学术垃圾”?


为了回答这个问题,研究团队将目光投向了最能反映科研实时动态的预印本平台。他们试图捕捉那些隐藏在数百万行摘要背后的“AI幽灵”,并量化其对科研生产力、公平性以及科学质量的真实影响。


研究过程:数百万篇论文里的“AI指纹”


这项研究的严谨性在于其惊人的数据规模和巧妙的侦测手段。


1.海量数据池


研究团队收集了三个全球最大的预印本数据库中,从2018年1月到2024年6月的数据:arXiv(120万篇):涵盖物理、数学、计算机等硬科学;bioRxiv(22.1万篇):涵盖生物学与生命科学;SSRN(67.6万篇):涵盖社会科学、法律与人文学科。这几乎囊括了当代科学研究的半壁江山。


2.如何识别"AI辅助写作"?


研究者利用了ChatGPT时代(2023年)之前的人类文本作为基准,对比GPT-3.5重写后的文本,训练出了一套基于文本特征的AI检测算法。他们排除了那些本身就是研究AI的论文,专注于观察AI作为“工具”是如何渗透进物理、生物、社科等领域的。


3.对照实验设计


为了衡量影响,研究者采用了“事件研究法”(Event Study)。他们追踪了那些开始使用AI辅助写作的作者(实验组),并将他们的发文轨迹与背景相似但未采用AI的作者(控制组)进行长期对比。这种设计排除了许多混杂因素,让我们能更确定的看到“AI介入”这一单一变量带来的后果。


4.如何衡量"研究质量"?


衡量科学质量本身就是一个难题。研究团队采用了两个替代指标:


同行评审发表:追踪预印本是否最终在同行评审期刊或会议上正式发表(观察窗口至2024年6月)


专家评审分数:作为稳健性检验,他们额外收集了2024年国际学习表征会议(ICLR-2024)的全部7243篇投稿及其28000份审稿意见,使用专家打分作为独立的质量度量。


5.统计方法


研究采用了作者层面的固定效应事件研究模型(author-level fixed-effects event models),比较同一作者在"首次使用LLM"前后的产出变化,并与未使用LLM的相似作者进行对照。这种设计可以控制个体层面的稳定特征(如研究能力、写作习惯等),更清晰地分离出LLM使用带来的边际效应。此外,为排除"AI研究热潮"本身带来的干扰,研究者在分析产出效应时剔除了核心AI子领域的论文。


研究结果:三个好消息,一个坏消息


好消息一:LLM显著提升了科研产出


AI对科研产出的提速效应是立竿见影的。数据显示,一旦研究者开始在写作中使用LLM(大语言模型),其论文产出量出现了显著激增:在arXiv上,生产力提高了36.2%;在bioRxiv上,提高了52.9%;在SSRN上,更是飙升了59.8%。这意味着,AI确实大幅降低了将实验结果转化为可发表手稿的时间成本。


好消息二:非英语母语者获益更大


这是本研究最温暖的发现。长期以来,科学界存在显著的“语言红利”——母语为英语的学者在发表论文时拥有天然优势。


研究发现,AI带来的生产力红利在不同人群中分布极不均匀。非英语母语国家的学者受益最大,尤其是亚洲机构的亚洲姓名学者,在bioRxiv和SSRN上的生产力增幅甚至达到了80%~89%,远超英美学者(约23%~46%)。


AI正在拉平赛场,让那些拥有卓越科学思想但受限于语言表达的科学家,能够更快、更流畅地与世界对话。


好消息三:LLM拓宽了知识发现的边界


人们常担心AI会带来“信息茧房”,让我们只关注那些热门的、头部的文献。但通过分析Bing Chat(集成GPT-4)用户的引用行为,研究者发现了相反的趋势。


相比于传统的谷歌搜索,使用AI辅助检索的学者:引用了更多书籍(涵盖长文本知识);引用了更多较新发表的论文;引用了更多被引用次数较少(非热门)的研究。这说明LLM强大的信息综合能力,实际上帮助学者挖掘到了那些被淹没在海量文献中的冷门知识,拓宽了引用的多样性。


坏消息:传统的"质量信号"正在失效


在AI时代之前,“写作复杂度”(词汇丰富、句式复杂)通常是高质量研究的信号——它意味着作者经过了深思熟虑和严谨打磨。数据也证实,在非AI辅助的论文中,写作越复杂,最终发表在同行评审期刊上的概率越高。然而,在AI辅助的论文中,这一规律被彻底颠覆了。研究显示,对于使用了LLM的论文,语言越华丽、越复杂,其同行评审的得分反而越低,发表概率也越低。


为什么会出现这种反转?研究者的解释是:当生成"看起来专业"的文本变得几乎不费力气时,复杂的语言就不再能反映作者对主题的掌握程度。LLM可以为任何内容披上专业的外衣——无论这个内容本身是深刻的洞见,还是平庸的堆砌。



这对科学评价体系构成了严峻挑战。长期以来,同行评审者和期刊编辑在筛选稿件时,会(有意或无意地)将写作质量作为研究质量的"捷径式指标"。如今,这条捷径正在失效。


研究意义:科学评价体系的至暗时刻与重生契机


这篇论文的意义,远不止于告诉我们“大家都在用AI”。它向整个科学界抛出了一个严峻的制度性挑战。


1.“语言图灵测试”已死,我们需要新的评价锚点


长久以来,学术编辑和审稿人习惯通过语言的流畅度和复杂度来快速预判论文质量。现在,这个快捷键失灵了。当平庸的研究也能通过AI瞬间生成“Nature级”的优美行文时,科学评价必须回归到逻辑的严密性、数据的真实性、方法的创新性这些内核上来。这对于审稿人来说,工作量将是巨大的。


2.警惕“学术泡沫”的淹没效应


虽然AI帮助了非母语学者,但生产力的普遍暴涨也意味着科研界将面临前所未有的“稿件洪流”。如果大量“语言完美但内容空洞”的AI论文充斥预印本平台和期刊后台,科学家将不得不花费大量宝贵时间去沙里淘金,这可能反过来降低整个科学共同体的效率。


3.呼唤“AI对冲AI”的治理智慧


文章最后提出了一个深思:既然人类难以分辨AI生成的华丽辞藻,我们是否需要开发专门的“AI审稿代理”?用魔法打败魔法,让AI去辅助核查方法论的一致性、声明的准确性。


4.科学诚信的边界需要重新界定


研究没有直接讨论"学术不端"问题,但其发现间接指向了一个棘手的灰色地带:当"AI辅助写作"与"AI代替思考"之间的界限越来越模糊时,我们如何定义学术诚信?一篇由AI生成初稿、人类修改润色的论文,其"作者身份"该如何归属?这些问题尚无共识,但亟需讨论。


结语


这篇研究给我们的启示是:大语言模型不是科学的救星,也不是科学的灾难——它是一面放大镜,既放大了我们的能力,也放大了我们的问题。它让研究者写得更快、发现得更广、跨越语言障碍——但它也让"看起来专业"变得廉价,让区分真正的洞见与华丽的空洞变得更加困难。


科学共同体正站在一个十字路口。我们需要的不是简单地"禁止"或"拥抱"AI,而是重新设计我们的评价体系、审稿流程、学术规范,使之适应一个人机协作的新时代。这不仅是技术问题,更是制度问题、文化问题。


最后,回到中国传统文化的一句提醒:“至诚如神,静则生慧。”其一,“至诚”不是修辞,而是对事实、方法与读者的诚实:真正让研究成立的,从来不是语言的精巧,而是求真的诚意与可检验的过程。其二,“静”不是慢,而是让思考不被输出冲动牵着走:在一键成稿的时代,最稀缺的能力反而是暂停、反问与沉淀——先把问题想透,把概念抠准,把因果与机制理顺,再动笔(或再动模型)。当写作回到“诚”与“静”,AI就更像一支锋利的笔,而不是替你思考的影子;文字可以更快,但思想必须更稳。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP