作者因官方账号被封被迫使用Claude API中转站，自研验证工具测试后发现高价中转模型掺水严重，行业透明度极低。 ## 1. 困境：刚需Claude但官方账号接连被封作者深度使用后确认Claude在长文逻辑处理等能力上远超其他模型，属于不可替代的刚需，但4个原价Max账号接连被封，新Mac mini账号也被秒封，只能转用第三方API中转站。 ## 2. 行业现状：中转模型完全黑盒，高价也无法保真市面中转站标注倍率从0.3倍到2.0倍，普遍认为0.3倍是逆向模型，2.0倍是正经Claude Max号池货源，价格差距极大：一次文书工作0.3倍仅需约5毛钱，2.0倍需要15-30元。但高价2.0倍模型体验飘忽不定，效果时好时坏，无法确认背后是否为真Claude，用户花高价仍要担心交智商税。 ## 3. 市面验证方法全部失效目前社区常用的三种验证方法都靠不住：直接问模型身份，随便换个系统提示词就能造假；用特殊提示词套特征，当前中转站已经可以轻松应对，方法早已失效；号称能检测的在线网站15秒就能跑完检测，原理上根本不可能测出模型的知识正确率和综合能力。 ## 4. 自研验证工具的设计思路作者不追求直接判定真假，改为用公开旧题库做对照测试：找10个GitHub高星项目整合出726道覆盖高考题、推理、数学、语言、编程的测试题，支持OpenAI和Anthropic两种接口，答题后自动判分输出加权的MCS分数，还支持AI自动重答被截断的题目，避免格式问题导致评分失真。 ## 5. 测试结果：高价中转模型分数不如更便宜的DeepSeek V4 Pro 稳定靠谱的DeepSeek V4 Pro最终得分为66.76分，跑完全部726道题成本不到10元，耗时不到1小时。两家被推荐的、自称正经Claude Opus 4.8的中转站，2.0倍倍率模型得分分别为59.73分和51.55分，推理、数学、编程能力得分远低于DeepSeek V4 Pro，跑题成本分别为35元以上和近20元，因为API不稳定耗时近2小时，再次印证了十几秒检测的在线工具完全不靠谱。 ## 6. 工具说明与行业痛点这个初级版本工具仅能做参考，无法100%判定模型真假，因为官方核心题库不对外公开，且验证需要花费1小时以上、30-50元成本，普通用户门槛很高，但当前Claude中转行业连初级验证标准都没有，消费者花真金白银却无法确认买到的模型是什么，这本身是极不合理的现状。

2026-06-05 18:57

我做了个测试Claude API 中转站的Skill，测完发现水太深了

AI Humanist by杉森楠©

本文来自微信公众号： AI Humanist by杉森楠，作者：杉森楠，原文标题：《我做了个测试 Claude API 中转站的 Skill，测完发现水太深了》

昨天一个朋友给我起了个称号，叫「Claude科学家」。

这个称号的获得，说出来nm一把辛酸泪。我的Claude官方订阅已经被封了四个原价的Max账号，最近又新买了一台Mac mini，刚用几天又被秒封。

封号封到我怀疑人生。

但问题是，Claude确实没法替代。你只要深度用过一段时间，就会发现它在文字质量、上下文理解、尤其是一篇长文章的逻辑处理上，远超其他模型。这种差别，真不是玄学。

所以就陷入了一个困境：我必须用Claude，但我已经彻底用不了Claude。

怎么办？只能去找中转站。

中转站我用了两个月。过程中发现一件事：这东西完全是黑盒。你根本不知道接入的模型，背后到底是哪个。然后，我就被当狗骗了。

市面上有一些推荐中转站的网站，倍率标注得清清楚楚。低的0.3倍，高的1.8倍、2.0倍，看上去很透明。但你根本看不懂这倍率到底代表什么。

根据我长期使用的观察，0.3倍率说是用Kiro逆向出来的Claude，2.0倍率说是正经Claude Max号池接出来的。听起来后者肯定更靠谱。

我一开始也这么想的。毕竟倍率差了快七倍，价格摆在那，总不至于拿假货糊弄人吧。

我日常完成一件文书类型工作，走完一套工作流，用0.3倍率的平台，大概要花5毛钱，但是走2.0倍率的平台，一次就要花15到30块钱。而2.0倍率的Claude API，一般意义上，大家会有个共识，那就是正经的Claude Max号池接出来的API。

但用了一段时间之后，我发现了一件很微妙的事。有时候觉得挺聪明的，有时候又觉得不太行，心里始终没底。这种飘忽不定的体验，让我越来越想知道一件事：这玩意儿背后到底是哪个模型？

花了这么多钱，按理说心里应该踏实了。但偏偏相反，我反而更虚了。因为效果完全不确定，有时候感觉还行，有时候明显不对劲。

有种，你都不知道自己是不是交了智商税的错觉。

这就很让人难受了。你说它假吧，有时候确实挺聪明；你说它真吧，关键时刻掉链子。这种反复横跳的体验，比直接用个明知是假的模型更折磨人。

因为你没有办法做一个确定的判断。

所以我决定自己动手，把这事搞清楚。从今年1月开始，我花了几个月时间，研究怎么系统地验证一个API背后模型的能力，将所有流程封装成了一个Skill。

先说结论：

信中转站，你真的还不如路边拜个野佛。

你怎么知道中转站的Claude是真是假？

这个时候，很多人包括我自己都在想一个问题：中转站的模型，到底是不是正经的Claude？

你心里不踏实，就会想找办法验证。目前市面和各种社区里的方法，基本就这几种。

第一种：直接问。

你上去就问API：「你是不是Claude？」

说实话，通过API接口写一个完整的系统提示词，这种方式根本识别不出来。太好造假了。背后给你接一个DeepSeek，改个名字说自己是Claude Opus 4.8，API验证层面一点办法都没有。

第二种：稀奇古怪的提示词工程。

用各种稀奇古怪的提示词去套模型，看输出质量，或者看某些奇奇怪怪的输出结果，比如下面这个：

这种方法在2024年可能还行，但都两年过去了，中转站连这套都不需要做多复杂的系统提示词就能应对，基本已经彻底失效。这种方法属于是中转站看了都要笑的程度。

第三种：在线检测网站。

有些网站号称能检测API中转站是否掺水。我试过，发现整个检测流程在15秒以内就跑完了。

这从原理上就不可能。

正常答一道题，模型本身就要花几秒。更重要的是，中转站的token输出速度和API路径的稳定性本来就有问题。接入量一大，延迟和截断都是家常便饭。15秒能测什么？测一道题的格式对不对还行，测模型的知识正确率和综合能力，天方夜谭。

那到底怎么办？

我的思路：不测真假，测差距

从今年1月开始，我就在研究怎么验证一个模型的能力。

最开始想到的当然是Benchmark。但调研了一圈发现，这个问题的答案比我想的复杂得多。

一方面，Claude官方晒出来的那些分数，背后用的数据集确实是内部私有的。比如Claude Sonnet 4.6的System Card里明确提到，他们测Terminal-Bench 2.0时用的是Terminus-2 harness，思考模式关闭，资源分配做了特殊处理。SWE-bench Multimodal干脆直接说用了「internal implementation」，分数不跟公开榜单可比。你拿到手的只是一个最终数字，题库本身根本不公开。

另一方面，大量公开Benchmark其实一直都存在。像SWE-bench Verified、GAOKAO-Bench、C-Eval、GSM8K、MMLU等等，这些数据集都是开源的，题库稳定，任何人都能测。CAICT 2024年的一份报告里统计过，当前主流评测数据集中，开源的大概占69%，闭源只占31%。

所以问题是：怎么用好这些现成的公开数据集来验证中转站？

调研到这里，我换了个思路。

不一定非要用最新的Benchmark啊！既然这么难到手。

这里有一个我夜深人静思考时突然想明白的、反直觉的点：每次Claude或者OpenAI推出新模型，前半个月到一个月，这个模型本身就是降智的。但无论怎么降智，它肯定还是比很多国产模型强。所以大家的默认认知是：新模型发布之后，默认它已经比上一代强很多，旧Benchmark根本没有测试的必要了。

这个认知是大错特错的。

新模型确实比旧模型强，但强归强，旧题库它未必能全做对。而且Benchmark的数据集本身是公开的、相对稳定的，用它来做对比验证，反而是最靠谱的方式。

所以我的思路变成了：不追求给出「yes or no」的答案，而是找一个参照物做对比。

找一个基础模型，用同一套题库测出分数，再测你的API分数，两个分数一对比，就知道这个API到底是掺了水、还是真货。

Skill是怎么做出来的？

于是，说干就干，我做了一个完整的验证中转站API知识能力的Skill，并做出了一套打分机制。

具体来说，我找GitHub上10个高Star数的项目，每个项目里都有对应的Benchmark数据集和验证脚本。

这些数据集来源非常多样，有中文高考题、推理题、数学题、语言题、编程题，覆盖面挺广。

Skill的设计逻辑是这样的：

第一步，做API兼容性。可以接OpenAI接口，也可以接Anthropic接口。

第二步，从这10个项目里构建一个完整的manifest，等于把数据集统一整合起来。

第三步，按顺序用这些题去请求目标API。每答完一题就写入JSONL文件。

第四步，用打分器判分。有些项目自带打分器，直接用；有些需要自己写。

第五步，所有题跑完之后，把结果聚合成一个加权MCS分数。

在实际使用中，我发现中转站API非常不稳定，经常会出现截断。这个Skill设计了一个关键能力：用Claude Code或Codex跑的时候，AI本身会接入能力，当API答题被截断时，可以让AI帮忙重新做一遍这道题。这样最终评分不会因为格式问题出现大面积零分。

做完之后，这个Skill共有726道题，从10个项目里挑出来的精华部分。每个题目都有一个索引。

每题会得到一个item_score，通常是0或1，少数instruction-following题目可以是0.5。

MCS计算方式是这样的：

MCS=各能力维度分数×权重后的加权平均

测完数据，结果让我心态崩了

先说基准模型。DeepSeek V4 Pro这个模型本身效果不错，大家关注度也高。而且DeepSeek官方API比较稳定，用起来放心。

最终得分：66.76分，满分100。在推理、数学、中文、编程几个维度上表现都还行。

然后就是重头戏了。我一直用的那几家平台，Claude Opus 4.8的API。这几家平台是某检测中转站的网站里推荐的，我用了挺长时间，用的时候心里一直犯嘀咕。有时候感觉挺聪明，有时候又觉得不太行。

跑完整个题库之后，心态直接崩了。

您猜猜花了这么多钱买的模型，最后得分多少？

59.73分。

不如DeepSeek V4 Pro（当然这里不是在说DeepSeek V4 Pro的模型不行）

这家平台在一些结构性数据题目上可能确实不太占优势，但DeepSeek V4 Pro同样不占优势。去掉Data Structure这一项，它的数学推理、Coding能力，得分也都低得离谱。

到这一步我人已经麻了。光是一次日常行政任务润色，一次就要花近30块钱，结果买了个这。

我不死心，又测了另一家。

这家倍率是2.0倍率。在懂行的人眼里，2.0倍率算是正经Claude的基准线。低于1.5倍率大家会觉得太便宜不像真的，2.0倍率大家普遍觉得应该是真货。

我再跑了一遍。

51.55分。

推理、数学、编程分数跌得更惨。

到这里，我人整个已经麻了，麻的透透的。

最离谱的是成本。DeepSeek V4 Pro跑完整套题，用了不到100万token，**花了9块9毛7。

两家自称正经Claude Opus 4.8的中转站，一个花了35块以上，一个花了近20块。

这还是726道旧题，跑起来DeepSeek V4 Pro大概不到一小时就跑完了，但中转站API不稳定，跑了将近两小时。

你就知道那些号称十几秒就能测出模型知识能力的在线检测，有多不靠谱了。

再简单说下，如何跑这个Skill，我们需要用Codex或者Claude Code，因为它本身依赖AI能力来处理截断和异常。如果50道题全是零分，问题大概率不在API，而是打分器或格式出了固定bug，需要人工介入修复。

叠甲时间

这个Skill还是非常初级的版本，用的数据集也比较旧。它只能作为一个小参考，不能拿来判定某个API到底是不是正经Claude。因为官方Benchmark你基本拿不到，所以也没办法给出更精准的答案。

当然了，如果有人能非常便捷地测出一个API是不是正经Claude，那中转站这个生意就没法做了，对吧？

但问题是，这个行业连"初级"的验证标准都没有。消费者花着真金白银，连自己买的到底是不是Claude都不知道。

这事儿本身就不对。这事儿本身就不对。这事儿本身就不对。（重要事情说三遍）

如果只靠这个Skill，你依然需要花费1h以上的时间去验证，甚至要花30-50块钱，这个门槛对验证中转站API来说依旧不现实。

如果大家还有什么其他好的验证中转站API的想法，欢迎在评论区留言！

最后希望大家玩得开心。

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定