一项研究提出通过API调用估算大模型参数量的新方法，认为模型对冷门事实的记忆能力与参数规模强相关，并公布了GPT-5.5等主流模型的估算参数，在技术社区引发了对方法可靠性和模型架构的广泛争议。 ## IKP方法：从冷门知识窥探模型规模研究团队提出“不可压缩知识探针”框架，其核心假设是模型的逻辑能力可被压缩，但对冷门事实的记忆容量主要取决于物理参数规模。他们构建了包含1400个问题的数据集，并在89个参数量已知的开源模型上拟合出事实准确率与参数量的对数线性关系，拟合优度R²高达0.917。 ## 估算结果：巨头模型参数惊人基于该方法，论文给出了对主流闭源模型的参数估算，其90%置信区间约为0.3至3倍。估算结果显示，GPT-5.5参数规模约9万亿，Claude Opus 4.7约4万亿，而Gemini 2.5 Pro约为1.2万亿。 ## 社区争议：方法与结论遭多方质疑技术社区对这组估算数据争议巨大，质疑点主要集中在三个方面。一是估算结果与实际服务体验不符，例如GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距不匹配；二是使用合成数据微调同样能提升冷门知识掌握度，这动摇了“事实知识不可压缩”的前提；三是估算结果与业内流传信息出入极大，如GPT-4规模普遍认为约1.7T。 ## 建设性探讨：架构差异或成关键变量在争议之外，社区也涌现出建设性讨论。有观点指出，MoE架构和稠密模型在知识压缩效率上可能存在本质不同，建议将两类模型分开统计以观察趋势。论文的另一项发现是，事实记忆容量的时间系数在统计上接近于零，这与“模型效率随时间提升”的普遍预测相悖。

2026-05-01 13:08

有人只用API就猜出了GPT、Claude、Gemini的参数量？社区吵翻了

机器之心

速览

本文来自微信公众号：机器之心，作者：关注大模型的

最近，研究人员李博杰在arXiv发布论文，提出一个名为「不可压缩知识探针」的评测框架，尝试仅通过黑盒API调用，来逆向估算任意LLM的参数规模。

论文标题：Incompressible Knowledge Probes:Estimating Black-Box LLM Parameter Counts via Factual Capacity
论文地址：https://arxiv.org/pdf/2604.24827

该研究的灵感源于一项持续三年的非正式测试。据李博杰介绍，其团队成员长期向各代主流大模型提出同一个冷门问题：「你了解中科大Hackergame吗？」（一项CTF网络安全竞赛）。

跨越多个版本的观察结果，直观展示了模型对世界知识认知的发展：2024年5月，GPT-4o对该赛事题目存在明显的「幻觉」与编造；至2025年2月，Claude 3.7 Sonnet已能准确列出2023年赛季的19道题目；而到了2026年4月，多个前沿模型已能精确回忆起连续多届赛事的具体细节。

受此启发，在DeepSeek-V4发布后，研究团队利用AI Agent历时四天自主构建了完整的IKP正式数据集。该数据集包含1400个问题，按信息的稀缺程度划分为7个层级，并在涵盖27家厂商的188个模型上进行了全面测试。

研究的核心假设在于：模型的逻辑推理能力可以通过训练技巧被压缩或蒸馏，但对冷门「事实性知识」的记忆容量则无法大幅压缩，其主要取决于模型的物理参数规模。

基于此，研究者在89个参数量已知的开源模型（规模从1.35亿到1.6万亿参数）上拟合出事实准确率与参数量的对数线性关系，拟合优度R²=0.917，并据此对闭源模型进行参数估算。

根据该方法，论文给出的估算数字（90%置信区间约为0.3至3倍）如下：

GPT-5.5：约9万亿参数
Claude Opus 4.7：约4万亿参数
GPT-5.4：约2.2万亿参数
Claude Sonnet 4.6：约1.7万亿参数
Gemini 2.5 Pro：约1.2万亿参数

论文同时指出另外两项发现：

一是引用数量和h指数并不能有效预测研究者是否被模型记住，模型更倾向于记住那些产生了领域性影响的工作，而非高产但影响相对分散的学者；

二是跨越三年的96个开源模型数据显示，事实记忆容量的时间系数在统计上接近于零，这与此前「Densing Law」所预测的效率随时间提升的规律相悖，研究者据此认为推理能力基准趋于饱和，而事实容量仍主要受制于参数规模。

这组直观的数据迅速在技术社区传播并引发广泛讨论，但也伴随着巨大的争议。

有博主基于这组估算数据，结合近期Claude Opus 4.7在部分长文本任务中的主观体验波动，推演出一套完整的逻辑：Anthropic因算力储备不足（仅为OpenAI的四分之一），在训练Mythos模型后资源见底，被迫将Opus 4.7的参数量从上一代的5.3T「反向升级」阉割至4T；而OpenAI则凭借充足的算力将GPT-5.5堆到了9T，从而实现了体验上的反转。