作者因官方账号被封被迫使用Claude API中转站,自研验证工具测试后发现高价中转模型掺水严重,行业透明度极低。 ## 1. 困境:刚需Claude但官方账号接连被封 作者深度使用后确认Claude在长文逻辑处理等能力上远超其他模型,属于不可替代的刚需,但4个原价Max账号接连被封,新Mac mini账号也被秒封,只能转用第三方API中转站。 ## 2. 行业现状:中转模型完全黑盒,高价也无法保真 市面中转站标注倍率从0.3倍到2.0倍,普遍认为0.3倍是逆向模型,2.0倍是正经Claude Max号池货源,价格差距极大:一次文书工作0.3倍仅需约5毛钱,2.0倍需要15-30元。但高价2.0倍模型体验飘忽不定,效果时好时坏,无法确认背后是否为真Claude,用户花高价仍要担心交智商税。 ## 3. 市面验证方法全部失效 目前社区常用的三种验证方法都靠不住:直接问模型身份,随便换个系统提示词就能造假;用特殊提示词套特征,当前中转站已经可以轻松应对,方法早已失效;号称能检测的在线网站15秒就能跑完检测,原理上根本不可能测出模型的知识正确率和综合能力。 ## 4. 自研验证工具的设计思路 作者不追求直接判定真假,改为用公开旧题库做对照测试:找10个GitHub高星项目整合出726道覆盖高考题、推理、数学、语言、编程的测试题,支持OpenAI和Anthropic两种接口,答题后自动判分输出加权的MCS分数,还支持AI自动重答被截断的题目,避免格式问题导致评分失真。 ## 5. 测试结果:高价中转模型分数不如更便宜的DeepSeek V4 Pro 稳定靠谱的DeepSeek V4 Pro最终得分为66.76分,跑完全部726道题成本不到10元,耗时不到1小时。两家被推荐的、自称正经Claude Opus 4.8的中转站,2.0倍倍率模型得分分别为59.73分和51.55分,推理、数学、编程能力得分远低于DeepSeek V4 Pro,跑题成本分别为35元以上和近20元,因为API不稳定耗时近2小时,再次印证了十几秒检测的在线工具完全不靠谱。 ## 6. 工具说明与行业痛点 这个初级版本工具仅能做参考,无法100%判定模型真假,因为官方核心题库不对外公开,且验证需要花费1小时以上、30-50元成本,普通用户门槛很高,但当前Claude中转行业连初级验证标准都没有,消费者花真金白银却无法确认买到的模型是什么,这本身是极不合理的现状。
我做了个测试Claude API 中转站的Skill,测完发现水太深了
2026-06-05 18:57

我做了个测试Claude API 中转站的Skill,测完发现水太深了

本文来自微信公众号: AI Humanist by杉森楠 ,作者:杉森楠,原文标题:《我做了个测试 Claude API 中转站的 Skill,测完发现水太深了》


昨天一个朋友给我起了个称号,叫「Claude科学家」。



这个称号的获得,说出来nm一把辛酸泪。我的Claude官方订阅已经被封了四个原价的Max账号,最近又新买了一台Mac mini,刚用几天又被秒封。


封号封到我怀疑人生。


但问题是,Claude确实没法替代。你只要深度用过一段时间,就会发现它在文字质量、上下文理解、尤其是一篇长文章的逻辑处理上,远超其他模型。这种差别,真不是玄学。


所以就陷入了一个困境:我必须用Claude,但我已经彻底用不了Claude。


怎么办?只能去找中转站。


中转站我用了两个月。过程中发现一件事:这东西完全是黑盒。你根本不知道接入的模型,背后到底是哪个。然后,我就被当狗骗了。



市面上有一些推荐中转站的网站,倍率标注得清清楚楚。低的0.3倍,高的1.8倍、2.0倍,看上去很透明。但你根本看不懂这倍率到底代表什么。



根据我长期使用的观察,0.3倍率说是用Kiro逆向出来的Claude,2.0倍率说是正经Claude Max号池接出来的。听起来后者肯定更靠谱。


我一开始也这么想的。毕竟倍率差了快七倍,价格摆在那,总不至于拿假货糊弄人吧。


我日常完成一件文书类型工作,走完一套工作流,用0.3倍率的平台,大概要花5毛钱,但是走2.0倍率的平台,一次就要花15到30块钱。而2.0倍率的Claude API,一般意义上,大家会有个共识,那就是正经的Claude Max号池接出来的API。


但用了一段时间之后,我发现了一件很微妙的事。有时候觉得挺聪明的,有时候又觉得不太行,心里始终没底。这种飘忽不定的体验,让我越来越想知道一件事:这玩意儿背后到底是哪个模型?


花了这么多钱,按理说心里应该踏实了。但偏偏相反,我反而更虚了。因为效果完全不确定,有时候感觉还行,有时候明显不对劲。


有种,你都不知道自己是不是交了智商税的错觉。


这就很让人难受了。你说它假吧,有时候确实挺聪明;你说它真吧,关键时刻掉链子。这种反复横跳的体验,比直接用个明知是假的模型更折磨人。


因为你没有办法做一个确定的判断。


所以我决定自己动手,把这事搞清楚。从今年1月开始,我花了几个月时间,研究怎么系统地验证一个API背后模型的能力,将所有流程封装成了一个Skill。


先说结论:


信中转站,你真的还不如路边拜个野佛。


你怎么知道中转站的Claude是真是假?


这个时候,很多人包括我自己都在想一个问题:中转站的模型,到底是不是正经的Claude?


你心里不踏实,就会想找办法验证。目前市面和各种社区里的方法,基本就这几种。


第一种:直接问。


你上去就问API:「你是不是Claude?」


说实话,通过API接口写一个完整的系统提示词,这种方式根本识别不出来。太好造假了。背后给你接一个DeepSeek,改个名字说自己是Claude Opus 4.8,API验证层面一点办法都没有。


第二种:稀奇古怪的提示词工程。


用各种稀奇古怪的提示词去套模型,看输出质量,或者看某些奇奇怪怪的输出结果,比如下面这个:


这种方法在2024年可能还行,但都两年过去了,中转站连这套都不需要做多复杂的系统提示词就能应对,基本已经彻底失效。这种方法属于是中转站看了都要笑的程度。


第三种:在线检测网站。


有些网站号称能检测API中转站是否掺水。我试过,发现整个检测流程在15秒以内就跑完了。



这从原理上就不可能。


正常答一道题,模型本身就要花几秒。更重要的是,中转站的token输出速度和API路径的稳定性本来就有问题。接入量一大,延迟和截断都是家常便饭。15秒能测什么?测一道题的格式对不对还行,测模型的知识正确率和综合能力,天方夜谭。


那到底怎么办?


我的思路:不测真假,测差距


从今年1月开始,我就在研究怎么验证一个模型的能力。


最开始想到的当然是Benchmark。但调研了一圈发现,这个问题的答案比我想的复杂得多。


一方面,Claude官方晒出来的那些分数,背后用的数据集确实是内部私有的。比如Claude Sonnet 4.6的System Card里明确提到,他们测Terminal-Bench 2.0时用的是Terminus-2 harness,思考模式关闭,资源分配做了特殊处理。SWE-bench Multimodal干脆直接说用了「internal implementation」,分数不跟公开榜单可比。你拿到手的只是一个最终数字,题库本身根本不公开。



另一方面,大量公开Benchmark其实一直都存在。像SWE-bench Verified、GAOKAO-Bench、C-Eval、GSM8K、MMLU等等,这些数据集都是开源的,题库稳定,任何人都能测。CAICT 2024年的一份报告里统计过,当前主流评测数据集中,开源的大概占69%,闭源只占31%。


所以问题是:怎么用好这些现成的公开数据集来验证中转站?


调研到这里,我换了个思路。


不一定非要用最新的Benchmark啊!既然这么难到手。


这里有一个我夜深人静思考时突然想明白的、反直觉的点:每次Claude或者OpenAI推出新模型,前半个月到一个月,这个模型本身就是降智的。但无论怎么降智,它肯定还是比很多国产模型强。所以大家的默认认知是:新模型发布之后,默认它已经比上一代强很多,旧Benchmark根本没有测试的必要了。


这个认知是大错特错的。


新模型确实比旧模型强,但强归强,旧题库它未必能全做对。而且Benchmark的数据集本身是公开的、相对稳定的,用它来做对比验证,反而是最靠谱的方式。


所以我的思路变成了:不追求给出「yes or no」的答案,而是找一个参照物做对比。


找一个基础模型,用同一套题库测出分数,再测你的API分数,两个分数一对比,就知道这个API到底是掺了水、还是真货。


Skill是怎么做出来的?


于是,说干就干,我做了一个完整的验证中转站API知识能力的Skill,并做出了一套打分机制。


具体来说,我找GitHub上10个高Star数的项目,每个项目里都有对应的Benchmark数据集和验证脚本。




这些数据集来源非常多样,有中文高考题、推理题、数学题、语言题、编程题,覆盖面挺广。


Skill的设计逻辑是这样的:


第一步,做API兼容性。可以接OpenAI接口,也可以接Anthropic接口。


第二步,从这10个项目里构建一个完整的manifest,等于把数据集统一整合起来。


第三步,按顺序用这些题去请求目标API。每答完一题就写入JSONL文件。


第四步,用打分器判分。有些项目自带打分器,直接用;有些需要自己写。


第五步,所有题跑完之后,把结果聚合成一个加权MCS分数。


在实际使用中,我发现中转站API非常不稳定,经常会出现截断。这个Skill设计了一个关键能力:用Claude Code或Codex跑的时候,AI本身会接入能力,当API答题被截断时,可以让AI帮忙重新做一遍这道题。这样最终评分不会因为格式问题出现大面积零分。


做完之后,这个Skill共有726道题,从10个项目里挑出来的精华部分。每个题目都有一个索引。




每题会得到一个item_score,通常是0或1,少数instruction-following题目可以是0.5。



MCS计算方式是这样的:


MCS=各能力维度分数×权重后的加权平均


测完数据,结果让我心态崩了


先说基准模型。DeepSeek V4 Pro这个模型本身效果不错,大家关注度也高。而且DeepSeek官方API比较稳定,用起来放心。


最终得分:66.76分,满分100。在推理、数学、中文、编程几个维度上表现都还行。



然后就是重头戏了。我一直用的那几家平台,Claude Opus 4.8的API。这几家平台是某检测中转站的网站里推荐的,我用了挺长时间,用的时候心里一直犯嘀咕。有时候感觉挺聪明,有时候又觉得不太行。


跑完整个题库之后,心态直接崩了。


您猜猜花了这么多钱买的模型,最后得分多少?


59.73分。


不如DeepSeek V4 Pro(当然这里不是在说DeepSeek V4 Pro的模型不行)


这家平台在一些结构性数据题目上可能确实不太占优势,但DeepSeek V4 Pro同样不占优势。去掉Data Structure这一项,它的数学推理、Coding能力,得分也都低得离谱。



到这一步我人已经麻了。光是一次日常行政任务润色,一次就要花近30块钱,结果买了个这。


我不死心,又测了另一家。


这家倍率是2.0倍率。在懂行的人眼里,2.0倍率算是正经Claude的基准线。低于1.5倍率大家会觉得太便宜不像真的,2.0倍率大家普遍觉得应该是真货。


我再跑了一遍。


51.55分。


推理、数学、编程分数跌得更惨。



到这里,我人整个已经麻了,麻的透透的。


最离谱的是成本。DeepSeek V4 Pro跑完整套题,用了不到100万token,**花了9块9毛7。



两家自称正经Claude Opus 4.8的中转站,一个花了35块以上,一个花了近20块。



这还是726道旧题,跑起来DeepSeek V4 Pro大概不到一小时就跑完了,但中转站API不稳定,跑了将近两小时。


你就知道那些号称十几秒就能测出模型知识能力的在线检测,有多不靠谱了。


再简单说下,如何跑这个Skill,我们需要用Codex或者Claude Code,因为它本身依赖AI能力来处理截断和异常。如果50道题全是零分,问题大概率不在API,而是打分器或格式出了固定bug,需要人工介入修复。


叠甲时间


这个Skill还是非常初级的版本,用的数据集也比较旧。它只能作为一个小参考,不能拿来判定某个API到底是不是正经Claude。因为官方Benchmark你基本拿不到,所以也没办法给出更精准的答案。


当然了,如果有人能非常便捷地测出一个API是不是正经Claude,那中转站这个生意就没法做了,对吧?


但问题是,这个行业连"初级"的验证标准都没有。消费者花着真金白银,连自己买的到底是不是Claude都不知道。


这事儿本身就不对。这事儿本身就不对。这事儿本身就不对。(重要事情说三遍)


如果只靠这个Skill,你依然需要花费1h以上的时间去验证,甚至要花30-50块钱,这个门槛对验证中转站API来说依旧不现实。


如果大家还有什么其他好的验证中转站API的想法,欢迎在评论区留言!


最后希望大家玩得开心。

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定