本文来自微信公众号: 未尽研究 ,作者:未尽研究,原文标题:《DeepSeek不必是救世主 | 以Agent为马》
去年,DeepSeek在春节前夕发布了R1模型,让硅谷震撼,让华尔街不安。它为中国大模型厂商重新埋头研究与训练验证了路径,也开启了中国开源模型阵营狂飙突进的一年。
春节已经成为新的一年的前哨战。近期,Kimi、智谱、MiniMax与豆包,都先后赶在春节前,发布自己的旗舰模型。外界不免揣测,它们都担心一旦迟到,在品牌形象与市场竞争中都落后一程。
前沿模型“智能”水平排名

(按照ArtificialAnalysis,目前美国最强模型来自Anthropic,中国来自智谱)
如今,压力给到了DeepSeek。市场期待它继续成为春节的英雄,以及承担中国AI生态的“救世主”角色。它该如何回应市场对它的期待,又或者,它必须回应吗?
DeepSeek确实正在酝酿些什么。全新长文本模型结构测试正在中,支持最高100万token上下文。它会是市场等待了DeepSeek-V4吗?事实上,去年5月、8月、10月与12月,市场就这么期待过。最终,DeepSeek交付了DeepSeek-R1-0528、DeepSeek-V3.1、DeepSeek-V3.2-Exp与DeepSeek-V3.2。
期间,DeepSeek还尝试了UE8M0 FP8、DSA、上下文光学压缩、mHC与Engram等方向的探索。它们的核心思路之一就是“稀疏化”,让“专家”、“精度”、“注意力”与“记忆”变得更为稀疏。人们相信在即将到来的V4上,能够继续找到这些改良的技术的影子。
然而,市场的聚光灯已经转向智能体(AI Agent),更确切地说,是智能体化(Agentic AI)。后者开始追求自主决策、长期任务规划、智能体间交互,以及端到端执行的新范式。Anthropic称,AI已经能写出90%的代码,再往前一步,就是完成90%端到端的软件工程(SWE)。火爆的OpenClaw让人相信,在获得足够权限后,Agentic应用会变得多么强大与危险。
2026年的旗舰大模型,将主要是原生Agentic大模型。在美国,Anthropic的Claude Opus 4.6与OpenAI的GPT-5.3-Codex相继上线,尤其是OpenAI推出1000token/秒的Codex-Spark,将编码竞争推向白热化。在国内,月之暗面的Kimi-K2.5、智谱的GLM-5、稀宇科技的MiniMax-M2.5,以及今天字节跳动的Doubao-Seed-2.0,都在宣传自己的智能体能力。
其中,Kimi-K2.5引入了智能体集群(Agent Swarm)技术,并提出并行智能体强化学习(PARL),准确率更高,用时更少;GLM-5在编程能力上实现了与Claude Opus 4.5对齐,又提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,以极少的人工干预自主完成Agentic长程规划与执行。MiniMax-M2.5则号称是第一个不需要考虑使用成本可以无限使用的前沿模型,“1万美元可以让4个Agent连续工作一年”。
DeepSeek-V3.1早已宣告迈向Agent时代,但又会如何定义扑面而来的Agentic时代。它能否凭借推理效率、工具集成、记忆机制与极致经济性,在落地体验中再度确立新的标杆?
也许,DeepSeek未必还需要一个单独的“R系列”。R象征推理与认知,对标OpenAI的o系列模型;而Agentic时代,更强调执行与工程,更需要对标OpenAI的Codex。DeepSeek原本就拥有Coder与Math系列模型,编码与数理证明,都是通往AGI(通用人工智能)的“元能力”,它们二者共同构成模型的自我改进系统,加速递归式进化。
市场同样期待DeepSeek继续验证国产算力生态协同的潜力。长期以来,它对此的探索主线,一直都是如何在有限的资源下通过架构创新,最大程度上地提升训练与推理的效率。去年年底,DeepSeek-V3.2用新架构DSA,在长上下文场景中实现了端到端的显著加速;今年年初,Engram的条件记忆有望“成为下一代稀疏大模型中不可或缺的基础建模范式”。
OpenAI的Codex-Spark证明,响应速度至关重要,是创造价值的关键。它运行在Cerebras晶圆级引擎上,这又正是国内推理生态所缺乏的。DeepSeek能否用“算法”换“算力”,抹平这种硬件级别的差距?
而且,从算法上着手,精简步骤,不仅能够提升响应速度,尤其是部分必须高速精准响应的场景,还能够减轻上下文的压力。此前,中国开源模型常被诟病,“冗长思考”不受制约,消耗token过高,将逐步侵蚀成本优势。此前,DeepSeek提到,会在未来的工作中,聚焦于提升模型推理链的智能密度,以改善效率。
比推理更重要的是训练,预训练仍然是后训练的起点。英伟达的Blackwell架构正在成为美国AI基础设施中的训练主力,谷歌的TPUv7也将在Gemini 4的训练中发挥关键作用。即使H200能尽快在国内部署,短期内中国大模型训练的算力来源,也仍处于Hopper时代。目前,国内AI芯片厂商的性能叙事仍主要围绕Hopper架构展开,而在大规模集群场景下的稳定性与综合效率表现,尚未形成充分的实践数据支持。
DeepSeek在论文中承认,由于训练算力不足,DeepSeek-V3.2在世界知识的覆盖广度上,仍落后于领先的专有闭源模型。该团队计划在后续迭代中,通过扩大预训练算力规模,来弥补这一知识差距。不必怀疑,当DeepSeek-V4发布的时候,国产AI芯片会Day0深度全栈适配;但市场更期待它的预训练会基于国产AI芯片,并再一次改写市场对英伟达叙事的定价。
人们欣赏DeepSeek精致的研究,市场也期待原生多模态的DeepSeek-V4。Gemini 3已经是原生支持文本、图像、音频和视频输入的大模型,Kimi-2.5也强调文本与视觉的联合优化。要继续对标谷歌、OpenAI,似乎DeepSeek必须有所动作。
但是,技术创新必须站在可验证的物理边界上,而不是情绪边界上。芯片、能源、网络,以及算法等整套生态,决定了算力的上限。而算力正在限制中国开源模型进一步追赶的后劲,在预训练和后训练方面已经表现出来。任何“算法乐观主义”,在特定时间内,都只能在这个边界内优化。而AGI更是一项系统工程,远超单一大模型的参数规模或版本更新。
DeepSeek的使命是探索AGI。只做大模型是无法实现AGI的,尤其是只做语言大模型,它的局限性也越来越明显。现在更接近现实的AGI形态,是知行合一的,它有认知能力、执行能力、长期约束、现实反馈闭环,等等。Claude大模型经常被中国的开源模型集体刷榜碾压,但它的收入以每年十倍的速度增长,在编程这一通用功能领域的突破,为通往AGI开辟了一条蹊径。
或许,真正长期主义的期待,是允许DeepSeek继续深度求索,而不是让市场的所有焦虑与愿望,都在某一个时刻集中投射到同一个名字之上。在公司创始人梁文锋看来,创新就是昂贵且低效的,有时候伴随着浪费,它需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。
