本文来自微信公众号: 硅星人Pro ,作者:周一笑
前几天,海外AI圈被一个叫Rio 3.5的开源模型刷了屏。它来头不小,号称冲进全球开源第一梯队。可发布方却有点奇怪,是巴西里约热内卢市政府下属的一家IT公司。一个市政机构下场做大模型,本身就够反常。
可它偏偏栽在开源上。权重是公开的,谁都能下载下来比一比。国内一支叫Nex-AGI的团队比完就发现,Rio根本不是新训出来的,六成权重就是Nex-AGI自己的开源模型Nex-N2-Pro,另外四成来自阿里Qwen,两个模型按固定比例合在一起,连重新训练都省了。最直接的证据是,把Rio出厂时写死的“你是Rio”那句提示删掉,再问它“你是谁”,它有近八成的概率说自己叫Nex,认领“Rio”这个名字的次数是零。里约随后致歉,说传错了版本。

Rio不是头一个。今年早些时候,日本乐天那个拿了政府补贴、号称日本最强的Rakuten AI,也被扒出底子是DeepSeek。
这几件事性质并不完全一样。Rio几乎没自己训练,是彻头彻尾的套壳冒充,乐天则在开源底座上确实做了不少自己的活,只是一开始没提来源,被扒出来才承认。连起来看就明白了,一个团队想用最低的成本、最快的速度做出一个能打的模型,今天第一个想到的底座,已经是中国的开源模型。

套壳被抓只是最扎眼的一种,更多时候,海外开发者是在大大方方地选用中国开源模型。比如GLM 5.2最近在海外讨论不少,类似的还有很多。可同样这批模型,回到国内是另一番光景,哪怕点开一个跟国模毫不相干的帖子,也常蹦出一句没头没尾的差评,“国模coding plan吃相难看,国产模型四大罪”,几乎是张口就来,这才是奇怪的地方。
1
不是所有产品都需要SOTA
谈论模型的人,大致分两类,两者大多数时候不在一个语境。
一种盯着榜单。他们看的是能力上限,谁又在某个基准上多了一两分,谁是新的SOTA。媒体的标题、发布会上的成绩对比图,都是冲这群人来的。
另一种把模型拿去做东西。他们算的是另一套账,手头这个任务到底需不需要最强的模型,多出来的那点能力值不值多花几倍的成本,模型能不能下载下来自己跑、或者换个便宜的托管商,万一供应商哪天涨价、限流,甚至自己下场做了同款产品,我手里还剩什么。
最近一份评测正好能说明这件事。Artificial Analysis把自己的智能指数改了版,砍掉一些偏简单的题目,加进了模拟客服对话这类要模型自己规划、调用工具才能完成的复杂任务,还第一次把完成单个任务要花多少钱、需要多久,作为独立指标列了出来。

对盯榜单的人,差这十几分,就是第一梯队和第二梯队的区别。对做产品的人,问题变成了,这十几分,值不值几十倍的成本。
1
把模型握在自己手里
性价比是第一眼就能看到的好处,但光便宜还留不住人。留人的是确定性:模型在自己手里,能部署、能改、能换,明年还是这个样子。
闭源API则不然。供应商随时可能涨价、限流,甚至自己下场做同款、回头跟你抢生意。Windsurf就吃过这个亏,Anthropic一边自己做Claude Code,又限制了它对Claude模型的直连访问,这是命门握在别人手里。把核心能力架在别人的接口上,主动权从来不在自己手上。开源模型你能自己部署自己跑,也能挑个便宜的托管商,不必被某一家API的定价和脸色绑死。便宜、开放、够用,这对闭源模型来说几乎是不可能三角。

1
开源模型主要来自中国
开发者越来越多地用中国开源,还有一个常被忽略的原因,能挑的开源模型本来就在变少。
美国不是没有开源模型。OpenAI去年发过一次gpt-oss,是它六年来第一次开放权重,口碑也不错;Google的Gemma一路更新,多个尺寸、单卡能跑,但几家最前沿的实验室,重心都在闭源那头。Anthropic根本不做开放权重,OpenAI那次之后再没下文,曾被寄予厚望的法国Mistral也渐渐掉出了第一梯队。
Meta一度是开源大模型的旗手,一个Llama撑起过大半个开源生态;可如今它号称两万亿参数的旗舰Behemoth迟迟没公开,反手发布了自己第一个闭源前沿模型。连曾经最大的开源玩家都掉头做闭源了。
数下来,美国还在持续做开放权重的,主要就剩Google的Gemma。但Gemma最大也就270亿参数,胜在小、能单卡跑,真正前沿规模、在写代码和agent上拿得出手的开源模型,还得看中国这几家。Qwen、DeepSeek、GLM、MiniMax一年到头密集更新,从小到大的尺寸、各种任务和模态都铺得很满,不久前还出现过三周内四家中国实验室连发四个开放编程模型的名场面。

追踪开源模型动向的ATOM项目算过,从23年年末开始的两年时间里,全球新增的开源衍生模型中基于Qwen的占了约七成,Llama则从两年前四成多的高点跌到了一成。项目发起人、AI研究者Nathan Lambert在报告里说,美国在开源模型上已经丢了领先,性能和采用率都落了后。换句话说,美国还握着最强的那几个模型,只是都锁在闭源里;开放、能随便拿来用的那一大批,如今主要来自中国。
1
国内开发者到底在骂什么
回到国内,其实用得一点不少,不少团队就拿Qwen、DeepSeek、MiniMax当底座做产品。可一到公开讨论,吐槽的声音往往更响。

GLM此前也经历过类似风波。新套餐上线后,用户抱怨模型放量慢、规则不透明、老用户升级机制不合理,智谱最后公开致歉并提供退款和补偿。模型能力、产品体验和收费方式原本是三个层面,到了用户那里,往往会合并成对同一个品牌的整体评价。
而国内讨论国产模型,还有两层海外没有的额外要求。一层是把它当成中国AI有没有原创突破的标尺,好不好用之外,还要追问它是不是蒸馏、有没有跟着别人跑;另一层是动不动拿它跟Claude、GPT的上限直接比,问它为什么还不是最强。两种预期加在一起,模型有多少人在用、好不好用反倒不是重点了。
国内对国产模型的关注,也常常慢一拍。DeepSeek就是这样,真正让它彻底出圈的,是它先在美国冲上App Store榜首,并引发全球资本市场对AI成本的重新估算。海外先用起来、先讨论起来,国内才回头重新打量,这样的情况并不少见。
国产模型撑起了全球大半个开源生态,被海外公司拿去做底座,被第三方评测给到开放权重的最高分;可回到国内,被念叨最多的却是套餐价格。同样一份成绩单,贴上硅谷的牌子,待遇大概是另一个样子。DeepSeek已经证明过一次,可以先在海外被认真使用,再倒逼国内重新看见它,类似的事情会在更多中国开源模型身上重演。
