一项研究提出通过API调用估算大模型参数量的新方法,认为模型对冷门事实的记忆能力与参数规模强相关,并公布了GPT-5.5等主流模型的估算参数,在技术社区引发了对方法可靠性和模型架构的广泛争议。 ## IKP方法:从冷门知识窥探模型规模 研究团队提出“不可压缩知识探针”框架,其核心假设是模型的逻辑能力可被压缩,但对冷门事实的记忆容量主要取决于物理参数规模。他们构建了包含1400个问题的数据集,并在89个参数量已知的开源模型上拟合出事实准确率与参数量的对数线性关系,拟合优度R²高达0.917。 ## 估算结果:巨头模型参数惊人 基于该方法,论文给出了对主流闭源模型的参数估算,其90%置信区间约为0.3至3倍。估算结果显示,GPT-5.5参数规模约9万亿,Claude Opus 4.7约4万亿,而Gemini 2.5 Pro约为1.2万亿。 ## 社区争议:方法与结论遭多方质疑 技术社区对这组估算数据争议巨大,质疑点主要集中在三个方面。一是估算结果与实际服务体验不符,例如GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距不匹配;二是使用合成数据微调同样能提升冷门知识掌握度,这动摇了“事实知识不可压缩”的前提;三是估算结果与业内流传信息出入极大,如GPT-4规模普遍认为约1.7T。 ## 建设性探讨:架构差异或成关键变量 在争议之外,社区也涌现出建设性讨论。有观点指出,MoE架构和稠密模型在知识压缩效率上可能存在本质不同,建议将两类模型分开统计以观察趋势。论文的另一项发现是,事实记忆容量的时间系数在统计上接近于零,这与“模型效率随时间提升”的普遍预测相悖。
有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了
2026-05-01 13:08

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

本文来自微信公众号: 机器之心 ,作者:关注大模型的


最近,研究人员李博杰在arXiv发布论文,提出一个名为「不可压缩知识探针」的评测框架,尝试仅通过黑盒API调用,来逆向估算任意LLM的参数规模。



  • 论文标题:Incompressible Knowledge Probes:Estimating Black-Box LLM Parameter Counts via Factual Capacity


  • 论文地址:https://arxiv.org/pdf/2604.24827


该研究的灵感源于一项持续三年的非正式测试。据李博杰介绍,其团队成员长期向各代主流大模型提出同一个冷门问题:「你了解中科大Hackergame吗?」(一项CTF网络安全竞赛)。



跨越多个版本的观察结果,直观展示了模型对世界知识认知的发展:2024年5月,GPT-4o对该赛事题目存在明显的「幻觉」与编造;至2025年2月,Claude 3.7 Sonnet已能准确列出2023年赛季的19道题目;而到了2026年4月,多个前沿模型已能精确回忆起连续多届赛事的具体细节。


受此启发,在DeepSeek-V4发布后,研究团队利用AI Agent历时四天自主构建了完整的IKP正式数据集。该数据集包含1400个问题,按信息的稀缺程度划分为7个层级,并在涵盖27家厂商的188个模型上进行了全面测试。


研究的核心假设在于:模型的逻辑推理能力可以通过训练技巧被压缩或蒸馏,但对冷门「事实性知识」的记忆容量则无法大幅压缩,其主要取决于模型的物理参数规模。


基于此,研究者在89个参数量已知的开源模型(规模从1.35亿到1.6万亿参数)上拟合出事实准确率与参数量的对数线性关系,拟合优度R²=0.917,并据此对闭源模型进行参数估算。


根据该方法,论文给出的估算数字(90%置信区间约为0.3至3倍)如下:


  • GPT-5.5:约9万亿参数


  • Claude Opus 4.7:约4万亿参数


  • GPT-5.4:约2.2万亿参数


  • Claude Sonnet 4.6:约1.7万亿参数


  • Gemini 2.5 Pro:约1.2万亿参数


论文同时指出另外两项发现:


一是引用数量和h指数并不能有效预测研究者是否被模型记住,模型更倾向于记住那些产生了领域性影响的工作,而非高产但影响相对分散的学者;


二是跨越三年的96个开源模型数据显示,事实记忆容量的时间系数在统计上接近于零,这与此前「Densing Law」所预测的效率随时间提升的规律相悖,研究者据此认为推理能力基准趋于饱和,而事实容量仍主要受制于参数规模。


这组直观的数据迅速在技术社区传播并引发广泛讨论,但也伴随着巨大的争议。



有博主基于这组估算数据,结合近期Claude Opus 4.7在部分长文本任务中的主观体验波动,推演出一套完整的逻辑:Anthropic因算力储备不足(仅为OpenAI的四分之一),在训练Mythos模型后资源见底,被迫将Opus 4.7的参数量从上一代的5.3T「反向升级」阉割至4T;而OpenAI则凭借充足的算力将GPT-5.5堆到了9T,从而实现了体验上的反转。



也有多位研究者和从业者对估算数字及方法论提出了不同程度的质疑。


对于GPT-5.5约9万亿参数的估算,部分用户认为与实际服务能力不符,指出若规模真达到这一量级,OpenAI现有基础设施难以支撑此前的推出方式,且GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距并不匹配。有人认为两者规模比约在2倍左右更为合理。



同时,定向引入「合成数据」进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰「事实知识不可压缩」的核心前提。



根据该方法估算,Gemini 2.5 Pro和Claude Sonnet的规模约1.7T,而行业已知国内模型Kimi k2.6和GLM 5.1约为800B。若参数差距仅在两倍左右,单纯的数据差异极难解释目前两者间的巨大性能鸿沟。



此外,业内长期流传的GPT-4规模约1.7T,这与论文估算的结果出入极大。



发起讨论的另一位X博主也补充说明:「这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明某些模型的估算可能相差甚远。」



当然,在争议与质疑之外,技术社区中也涌现出了许多极具建设性的正向探讨。


例如,有用户认为MoE架构和稠密模型在知识压缩效率上可能存在本质不同(MoE的事实可能被分散在不同专家中),建议将这两类模型分开统计以观察趋势。





对这组数据你怎么看?


参考链接:


https://x.com/deedydas/status/2049523583517634862


https://x.com/bojie_li/status/2049314403208896521


https://www.zhihu.com/pin/2032769685012361774


https://x.com/yiran2037840/status/2049827667034439821

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定