本文来自微信公众号: 特大号 ,作者:小黑羊
就在DeepSeek V4发布后,美国官方AI评测与标准机构CAISI给出了一份评估报告。
根据评测结果,DeepSeek已经落后美国顶尖闭源模型8个月。

这张图很能说明问题,横轴上模型发布时间表,纵轴是模型能力评分。
可以看到刚刚发布的DeepSeek V4 Pro的整体能力,仅仅相当于去年8月发布的GPT5的水平。
更扎心的是模型迭代的曲线的斜率,美模明显更陡峭一点,这说明差距被拉大了。
那么,DeepSeek主要输在哪里了呢?
这张评分表一目了然。
DeepSeek在数学、自然科学、常规代码能力上,跟GPT、Claude们不分伯仲,但是在网络安全、复杂工程、抽象推理等层面大幅落后。

所以,DeepSeek更有点像「小镇做题家」:理科特别强、刷题很猛、写代码也不错,但是到了复杂实战的场景,就可能露怯。
而对于企业级场景,无论coding还是智能体,想要真正落地,极度依赖复杂软件工程能力和抽象推理能力。
当然还有网络安全能力,非常强调实战,这方面,DeepSeek短板相当明显。
这些差距,原因是多方面的↓
首先,不得不承认,咱们的训练算力和硬件生态确实存在代差。
像数学能力可以通过高质量合成数据和强化学习快速拉升,好比刷题,黄冈密卷多来点,老师辅导认真点,容易搞定。
但复杂工程、安全、智能体任务不仅要训练模型,还要构造大量真实环境、自动评测沙盒等等,好比实战,已经脱离了课堂和教室,这些更烧算力、烧工程资源。
第二,缺少高质量实战数据。
数学、竞赛题、科学问答的数据相对容易标准化。
但安全和复杂软件工程不一样,需要大量真实仓库、issue、依赖环境、漏洞链、调试过程。这种真实工作轨迹数据的积累,我们还差得很远。
第三,成也MoE,败也MoE。
MoE模型带来了很多好处,比如性价比,但针对高度连续、长链路、跨领域任务,会面临更大的挑战,稳定性不足。
从某种程度上讲,稠密模型能力会更强,但选择MoE也是跟第一条息息相关,毕竟我们太缺算力。
第四,开源是一把双刃剑。
闭源模型的好处是我是个黑盒,可以把推理成本、系统复杂度、模型组合、工具链、检索系统、隐藏推理策略都藏在API后面。
没准你提安全需求的时候,闭源模型背后有个真人白帽子大神在人肉服务呢。
,但黑盒子里面后面可能藏着各种不为人知的组合技,比如多模型路由、工具执行器、安全过滤器等等。)
但DeepSeek这种开源权重模型,几乎就是打明牌,我展示的能力基本上就是「裸模型能力」,没法像闭源模型那样,把大量奇技淫巧包进去。
所以,这就导致在智能体、安全、复杂工程任务上,闭源黑箱子天然占便宜。
写在最后的两点↓
第一,不必过于在意这份报告的结论,要考虑立场和背景。
CAISI的评测更美式叙事一点,侧重Cyber、软件工程、抽象推理这些领域。
如果换个维度,看中文场景、企业私有化部署、低成本推理、国产硬件适配、开源生态价值等等,DeepSeek就会优势立现。
第二,别只盯着DeepSeek,现在能代表东方力量的国产模型,已经可以组团作战了。
过去一年,DeepSeek是一面旗帜,是所有人的目光焦点,扛着「国产模型不能输、开源模型不能输」的重任,压力太大了。
但从今年起,DeepSeek肩上的这份重担可以卸下了,一大波国产力量已经开始接棒,共同扛起这份重任。
Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…
从DeepSeek的一枝独秀,到现在的百花齐放,中国开源模型你方唱罢我登场,各领风骚三五天。
而且,这波齐射与2024年的百模大战不同,这一波洗牌剩下来的模型,个个都挺能打,无论实战还是口碑,都不输DeepSeek。
比如在Artificial Analysis模型性能总榜单中,DeepSeek V4 Pro仅仅排在国产开源模型的第四位,Kimi k2.6、Mimo-V2.5、Qwen3.6都排在它前面。

同样,再看另一份LmArena的Coding模型榜单,DeepSeek V4 Pro仅仅排在总榜第15名。
国产模型里面GLM-5.1(第5)、Kimi-k2.6(第7)、小米2.5 Pro(第11)、Qwen3.6-Plus(第12)表现都更好。

这让我想起DeepSeek V4发布时,他们在公告结尾引用荀子的那句话↓
「不诱于誉,不恐于诽,率道而行,端然正己。」
当DeepSeek走下神坛的时候,也恰恰是国产模型各自破局、集体向前的时候。
静水流深待磅礴!
