39
这个30B国产小模型打败了Gemini和GPT的闭源模型
此前发布了 BabyVision 评测基准的UniPat AI刚刚开源了UniScientist,一个只有30B参数的模型,直接在多个科研评测榜单上打出了让人意外的成绩。
先看数据。UniScientist-30B-A3B(实际激活参数仅3B)在FrontierScience-Research榜单上拿到28.3分,Claude Opus 4.5是17.5,Gemini 3 Pro是12.4,GPT-5.2 xhigh completion mode是25.2。开启成果聚合模式后,得分直接拉到33.3。
核心在于UniScientist解决了两个卡脖子的问题。第一个是数据。UniScientist让大模型负责大规模生成候选研究问题和解法草案,让人类专家专注做验证和把关。生成容易验证难,但验证比从零创造便宜得多。目前数据集已覆盖50+学科、4700+研究级实例,每条都附带20+项可独立验证的评测标准。第二个是方法。多数模型做科研任务,本质上还是在"写作文"——从结论倒推,编一套看起来合理的叙事。UniScientist把科研过程形式化为一个动态系统:不断提出假设、整合证据、溯因更新,循环往复直到证据状态收敛,再沉淀为结构化成果。
5天前
10