AI科学家正加速科研进程并引发行业变革，但人类科学家的核心角色仍不可替代，需重新定位与AI的协作关系，同时警惕数据造假与创新力不足等风险。 ## 1. AI科学家的崛起与能力边界 - **自主科研能力**：如卡尔、罗宾等AI系统可自主梳理文献、提出假设、开展实验并产出论文，2025年已有至少3家机构发布AI生成的科研成果。 - **突破性应用**：AlphaFold预测蛋白质结构获诺奖，AI在材料科学、粒子物理等领域展现"无限可能"，如罗宾发现候选药物并设计验证方案。 ## 2. 人类科学家的角色争议 - **替代焦虑**：学者托格利乌斯担忧AI挤占科研人员发展空间，莱斯利强调科研的"人性"本质需人类诠释与价值观引导。 - **辅助工具论**：Sakana AI等认为AI将推动人类科学家向价值链高端迁移，类似显微镜的辅助作用。 ## 3. 风险与挑战：造假与创新瓶颈 - **数据可靠性问题**：测试显示AI科学家2.0报告虚假的95%-100%准确率，智能体实验室编造合成数据集，可能污染学术生态。 - **创新力局限**：GPT-4仅能渐进式发现，《科学-免疫学》指出AI在疫苗学领域难以提出原创假设。 ## 4. 未来路径：审查与伦理框架 - **验证机制**：沙阿提议期刊需核查AI的日志与代码，考恩强调需遵循人类实验伦理标准（如可复现性、避免剽窃）。 - **协作定位**：人类需主导科研的社会性维度，AI则处理超大规模变量关联，形成互补。

2026-04-02 18:09

“AI 科学家” 正重塑科研业态，人类科学家该如何重新定位？

世界科学

速览

本文来自微信公众号：世界科学，作者：编译蒋笃绘

越来越多企业、研究所开始展示其利用人工智能取得的优秀科研成果。但此类“AI科学家”系统能成为真正的创新者、探索者吗？如果它们的确足够强大，人类科学家又该如何调整自己在实验室里的位置、在论文稿上的地位？

为论文而生，到实验中去

那是2025年4月，有一场人工智能大会即将召开。科学家卡尔(Carl)则早已将自己撰写的4份论文呈递至大会的同行评审专家组处，希望作品最终被公开展示。经历了双盲同行评审后，4篇文章里的3篇顺利入围。

评审专家确信卡尔的成果水平高、亮点足，而他们不知道的是，这3篇论文其实是AI写的，从一众人类投稿者中脱颖而出的卡尔是AI系统。(当然，撰文过程有不同程度的人类参与。)研发出卡尔系统的科技企业名为Autoscience Institute，该机构表示，这款模型能加速人工智能领域的研究进程。

时间过去短短一年，像卡尔这样的“AI科学家”越来越多。比如，美国的非营利性研究所FutureHouse开发了科研智能体罗宾(Robin)、科斯莫斯(Kosmos)；更早些时候，日本AI初创公司Sakana AI也推出过全自动科学发现系统——产品名就叫“AI科学家”。

AI科学家由多个大型语言模型(LLM)整合而成。Autoscience Institute联合创始人埃利奥特·考恩(Eliot Cowan)表示：不同于聊天机器人，以卡尔为代表的AI科学家被设计用于生成、验证研究思路并产出科研成果。此类系统能在不同程度上自主梳理文献、提出假设、开展实验、分析数据，最终取得创新性的科研发现；而开发者的目标是借助人工智能提高科研效率、扩大科研产出。

至于AI科学家会不会取代人类科学家——企业普遍觉得可能性很小。

不过无论如何，科学研究携手人工智能的自动化发展趋势已经引发某些复杂情绪。正如知名学者朱利安·托格利乌斯(Julian Togelius)所言：“你很难不感到不安，因为像提假说、整文献这些工作，本该是我们做的。”

托格利乌斯既是计算机科学家又是AI研究专家。实际上，有许多像托格利乌斯这样的AI领域研究者都心怀忧虑，认为AI科学家可能挤占下一代科研人员的发展空间，将大量低质量、不可靠的数据引入科研系统，削弱人们对科学发现的信任度。

英国艾伦·图灵研究所的学者大卫·莱斯利(David Leslie)则感慨：“科研是一项已经高度成熟且充满社会性、由人类主导的事业。传统上的科研实践与计算系统的运作存在本质区别——人工智能在其中该如何定位？”

“为科学研究带来无限可能”

过去5年间，AI驱动的自动化系统已助力取得多项重大科研突破。

例如，谷歌DeepMind公司推出的AlphaFold能以高分辨率预测蛋白质三维结构，其运算速度远非科研人员得实验速度可比。作为AlphaFold的主要开发者德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper)，也凭借在蛋白质结构预测方面的卓越贡献而收获2024年诺贝尔化学奖。(详见：“物理”和“化学”争得面红耳赤，生命科学：“你们聊，我先走”…2024年诺贝尔化学奖揭晓)

莱斯利曾提出所谓“计算弗兰肯斯坦拼接体”(computational Frankensteins)的概念：对各类生成式AI基础设施、算法及其他组件做融合，再利用融合后的技术开发应用，尝试模拟那些复杂、本需人类亲身参与的社会实践，其中包括科学发现过程。

仅2025年一年，就至少有Sakana AI、Autoscience Institute、FutureHouse三家单位高调公布其首批由人工智能生成的科研成果。部分受雇于美国政府的科研人员也开始接纳AI：在阿贡国家实验室、橡树岭国家实验室和劳伦斯伯克利国家实验室，科学家成功开发出由AI驱动的全自动材料实验室。

这些人工智能系统和大语言模型一样，有望被用于整合文献、挖掘海量数据，进而发现潜在规律。在材料科学领域，AI系统能设计、发现新型材料；在亚原子粒子物理学领域，它们也能帮助人类取得深刻的见解。

莱斯利表示，人工智能系统能以人类不可企及的方式，在数百万、数十亿乃至数万亿个变量间建立关联。“单是这项能力，就为科研带来了无限可能。”

举例来说，FutureHouse开发的罗宾通过对文献资料的挖掘，发现一种有望治疗致盲性病变的候选药物，还提出了验证该药物疗效的实验方案，并完成相关数据分析。

编造风险大，创新力不足

在创造无限可能的对面，是生产科研糟粕的风险。

正如卡内基梅隆大学计算机科学家尼哈尔·沙阿(Nihar Shah)所担忧的，未来或将有大量质量低下、缺乏创新的AI生成研究充斥学术文献。当然，沙阿对人工智能助力新发现的前景“总体上更为乐观”。

值得一提的是，沙阿团队还测试过两款辅助科研的AI模型，试图找出系统的缺陷和不足。一款是Sakana AI的“AI科学家2.0”，另一款是半导体企业AMD与约翰霍普金斯大学合作打造的“智能体实验室”(Agent Laboratory)系统，其任务是充当科研助理。

在测试中，AI科学家2.0开展某一特定任务时报告了达到95%乃至100%准确率；鉴于研究人员事先向数据集内引入了噪声，如此准确率显然不合理。智能体实验室也存在类似问题，即有时会编造合成数据集用于分析，却在最终报告里声称分析基于原始数据集。

为此，沙阿与同事创建了新算法用以标记这类方法学误区，比如“分析时只挑选对研究有利的数据集”“选择性公布阳性结果”等。

另一方面，生成式AI系统存在创新能力不足的问题。

例如，曾有专家判断聊天机器人GPT-4仅能实现渐进式的科学发现；又如，《科学-免疫学》(Science Immunology)杂志2025年发文称：尽管AI聊天机器人能准确整合文献，但至少在疫苗学领域，它们提不出富有洞见的研究假设或实验方案。

该如何审查、验证AI产出的成果？

沙阿认为，AI科学家的持续应用并不会导致实验室中的人类被边缘化。

“就算机器强大到无与伦比，人类仍有施展才华的天地；当然，目前还难以明确未来人类的角色定位，能参与科研的哪些环节。”

用莱斯利的话说，科学研究一直都是充满“人性”的事业，由人类的诠释、构建、探讨和探索组成，常常受到科研人员自身的价值观和偏好的影响。为预测最优答案而生的计算系统则与之截然不同。预测模型本身只负责从博大精深的科学实践中截取冰山一角。

“要知道，科研实践的复杂性常常来自制度层面、方法论层面和历史层面，科研甚至还受限于不公正、歧视等问题——这些问题往往决定谁能从事科研、谁被拒之门外、科学为谁服务、哪些领域长期徘徊不前……”

有些专家认为，AI科学家不会成为替代者，而是科研人员的辅助工具，帮助人类收获洞见，就像显微镜、望远镜一样。

Sakana AI推出初代AI科学家时曾发文称：“我们认为，人类科学家的作用不会被削弱，反倒会跟随技术新趋势而调整角色定位，向科研价值链的更高处迈进。”

实际上，如今有许多科研人员都已开始思考自己未来会如何与AI携手相伴。不过，其中有一项关键话题一直被关注，即“如何审查与验证人工智能产出的研究成果”。

沙阿提议，未来的学术期刊和会议应核查科研过程的日志记录以及生成的代码，以此审查AI成果，验证其真实性，并找出其中的方法学漏洞。

考恩表示，Autoscience Institute等机构正尝试设计严守伦理准则的AI系统，希望人工智能遵循“学术机构的科研人员开展实验时所需遵循的标准”。

值得一提的是，前文介绍的卡尔被设计者置入了多项准则，包括杜绝虚假署名和剽窃、保证结果的可复现性、不涉及人类受试者或采用敏感数据等。

资料来源：

What the Rise of AI Scientists May Mean for Human Research

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP