人工智能能否开展科学研究？当前通过基准测试评估其能力，但科学复杂性使评判标准难以统一，需依赖多元化测试组合驱动进步。 ## 1. 科学基准测试的兴起与挑战 - 研究者开发数十项新基准测试（如HLE、FrontierScience）评估AI科研能力，但尚未形成共识。 - HLE测试2500道前沿知识问题，Google的Gemini 3 Deep Think创下48.4%得分纪录，但被质疑偏重琐碎知识而非实际研究能力。 ## 2. 从知识测试到推理能力评估 - OpenAI的FrontierScience包含700道化学/生物/物理题，区分奥林匹克式问题（GPT-5.2正确率77%）和开放式研究问题（得分25%）。 - 关键突破在于验证性设计：明确评分规则，通过中间推理步骤判断模型能力。 ## 3. 真实研究场景的模拟测试 - SDE基准测试基于8项未发表研究项目，要求AI完成1125项多步骤任务（如分子分解），发现单题正确率与项目整合能力不总相关。 - 所有顶尖模型在同一难点受阻，暗示训练数据相似性可能限制突破。 ## 4. 全流程科学工作流测试尝试 - LABBench2通过1900项任务评估AI从构想到论文的全流程能力，显示模型在文献检索表现良好（如专利查询），但复杂任务（跨数据库引用、图表解读）仍困难。 - 改进信息检索与导航能力被视作关键瓶颈。 ## 5. 多元化评估体系的未来方向 - 科学家强调需组合测试不同技能（数据绘制vs化学事实分析），单一标准无法覆盖科学复杂性。 - 基准测试的双重作用：记录现状+驱动创新，如OpenAI研究者所言"衡量潜在能力以推动发展"。

2026-04-25 10:07

如何判断AI 是否具备开展科学研究的智能？

科技导报©

本文来自微信公众号：科技导报，作者：科技导报，原文标题：《如何判断 AI 是否具备开展科学研究的智能？|深度报道》

多年来，人工智能（AI）研究者梦想开发能通过提出新问题、设计实验乃至执行实验来加速科学进程的工具。近期，大语言模型（large language models，LLM）已取得若干发现，部分AI开发者宣称这使我们更接近该未来。但尚不知道如何测试AI模型是否真能开展科学研究？

为寻求答案，研究者转向基准测试：用于评估AI能力并与其他模型比较的标准化问题或任务集。但科学的复杂性使评判其科研能力尤为困难。美国伊利诺伊大学厄巴纳-香槟分校计算机科学家Hao Peng表示：“模型拥有海量知识，但它们懂得如何运用吗？”

过去1年涌现数10项面向科学的新基准测试以回答该问题，但科学家尚未就最佳方法达成共识。其中最受欢迎者之一是2026年1月28日发表于Nature的“人类终极考试”（Humanity's Last Exam，HLE）。该测试采用2500道源自“人类知识前沿”的问题考验LLM。例如其中一题询问蜂鸟籽骨支撑多少对肌腱。HLE开发者、非营利组织人工智能安全中心研究工程师Long Phan表示：“我们希望构建仅长期深耕该领域的专家才能回答的多样化数据集。”

HLE自2025年1月24日首次以预印本形式发布以来，已成为LLM的重要试金石——HLE得分现已成为AI公司彰显产品能力的常见谈资。HLE发布时，知名开发者OpenAI的o1模型以仅8.3%的得分位居榜首。2026年3月早些时候，Google宣称其最新科学推理模型Gemini 3 Deep Think创下48.4%的HLE新纪录。

但部分科学家指出，HLE诸多问题测试的是晦涩乃至琐碎的知识，而非开展有意义研究的能力。AI for Science公司Deep Principle创始人段辰儒质疑：“知晓世界上磷同素异形体有多少种颜色，如何助人实现科学发现？”

OpenAI研究者表示，他们开发了朝此方向迈进的新基准测试。2025年12月16日发布的FrontierScience借助700道化学、生物学与物理学问题，旨在识别“专家级科学推理”能力。部分问题类似数学与科学奥林匹克竞赛题目：通常基于简短场景、答案明确，OpenAI研究科学家Miles Wang称之为“纯推理努力的合理代理”。例如识别系列化学反应的产物。其他问题则基于博士科学家在实际工作中处理的复杂开放式研究问题，如推理修饰特定分子可能影响其性质的多种途径。

Wang表示，该基准测试的关键优势在于可验证性——这是公平测试的最重要特征之一。奥林匹克题目易于评分，而对于开放式研究问题，LLM因识别中间推理步骤而获分。截至目前，OpenAI自家产品GPT-5.2取得最佳FrontierScience成绩：奥林匹克题目正确率77%，研究挑战得分25%。

其他研究者认为这一巨大分差颇具启示性。他们主张基准测试应聚焦直接衡量AI开展现实世界研究的能力。这正是段辰儒及其合作者与FrontierScience同期发布的“科学发现评估”（Scientific Discovery Evaluation,SDE）基准测试的指导原则。该测试不提困难但孤立的问题，而是向AI呈现源自8项进行中、数据尚未发表的真实研究项目的1125项任务，关联43种研究场景。例如要求LLM推导如何将目标分子分解为更简单、市售可得的组分。模型评估不仅基于单个答案，更基于其整合完整项目的能力——在多步骤中提出、检验并完善假设。段辰儒表示：“我们确保回答每个问题都关联真实科学发现的微小片段。”

SDE得分显示，LLM正确回答单个问题的能力并不总能转化为完整项目的稳健表现，反之亦然。段辰儒表示：“知晓宏观前进方向往往比知晓特定分子的精确性质更重要。”该基准测试还发现，来自OpenAI、Anthropic、xAI和DeepSeek等不同供应商的顶尖模型常在同一最难问题上受阻。这一模式暗示它们可能遭遇相同局限，很可能因其在相似科学数据池上训练所致。

然而SDE方法仍仅捕捉科学工作流的片段。AI for Science初创公司FutureHouse推出的生物学导向新基准测试LABBench2，旨在测试面向科学的AI能否将项目从初始构想推进至完成论文。2月发布的该测试采用近1900项任务，评估所谓“代理型www.kjdb.orgAI模型”（能独立完成多步骤任务的系统）执行文献检索、数据获取与基因序列构建等工作的能力。

目前结果喜忧参半。多数领先LLM在全文专利与实验室试验论文检索方面表现良好，但在LABBench2更复杂的任务上常遇困难，例如交叉引用多个数据库，或在密集论文中定位并解读特定图表或数据。FutureHouse商业衍生公司Edison Scientific的Jon Laurent表示，这表明迈向真正AI科学家的进展，部分也取决于改进模型检索与导航信息的方式。

研究者强调，基准测试不仅用于记录当前赢家。更严格的基准测试还可通过为LLM及其他AI工具提供新目标来驱动创新。Laurent表示：“基准测试的目的之一是领先时代，衡量潜在能力，并推动其发展。”

在诸多领域，或不存在衡量AI是否“擅长”科学的单一标准。美国佐治亚理工学院认知神经科学与AI研究者Anna Ivanova表示：“这正是我们看到所用基准测试高度异质的原因。系统绘制数据的能力与其分析化学事实知识截然不同——尽管科学家可能两者都需要。”

鉴于科学所需技能的广泛性，AI专家认为研究界或宜依赖测试组合，每项测试针对并催化科学工作流不同环节的改进。Wang表示：“我们正迈向需要更多元化评估体系的世界。”

无论采用何种方法，被衡量的内容很可能引导改进方向。Peng表示：“要取得进展，你必须能够衡量它。

（译自Science，2026，391（6790））

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP