这个30B国产小模型打败了Gemini和GPT的闭源模型-虎嗅网

宋思杭

Less is more

这个30B国产小模型打败了Gemini和GPT的闭源模型

此前发布了 BabyVision 评测基准的UniPat AI刚刚开源了UniScientist，一个只有30B参数的模型，直接在多个科研评测榜单上打出了让人意外的成绩。

先看数据。UniScientist-30B-A3B（实际激活参数仅3B）在FrontierScience-Research榜单上拿到28.3分，Claude Opus 4.5是17.5，Gemini 3 Pro是12.4，GPT-5.2 xhigh completion mode是25.2。开启成果聚合模式后，得分直接拉到33.3。

核心在于UniScientist解决了两个卡脖子的问题。第一个是数据。UniScientist让大模型负责大规模生成候选研究问题和解法草案，让人类专家专注做验证和把关。生成容易验证难，但验证比从零创造便宜得多。目前数据集已覆盖50+学科、4700+研究级实例，每条都附带20+项可独立验证的评测标准。第二个是方法。多数模型做科研任务，本质上还是在"写作文"——从结论倒推，编一套看起来合理的叙事。UniScientist把科研过程形式化为一个动态系统：不断提出假设、整合证据、溯因更新，循环往复直到证据状态收敛，再沉淀为结构化成果。

3-9