DeepSeek CEO梁文锋推迟V4发布,旨在通过架构级重构实现AI原生长期记忆(LTM),解决当前大模型记忆缺陷,可能颠覆OpenClaw等依赖外挂记忆的现有技术范式。 --- ## 1. LTM技术:从外挂记忆到原生架构的革命 - V4核心创新LTM系统直接在Transformer架构内实现持久化记忆,避免OpenClaw等模型依赖外部存储导致的token消耗和检索失效问题。 - Engram论文证明其记忆空间可无限扩展且推理成本恒定,突破现有技术天花板(如MemGPT压缩损耗、OpenClaw检索失效)。 ## 2. OpenClaw的记忆困境与行业痛点 - OpenClaw记忆系统存在压缩损耗(摘要丢失决策链条)、检索失效(向量匹配逻辑断层)、容量上限(单文件2万字符截断)三大缺陷。 - 腾讯CL-bench研究显示当前模型上下文学习正确率仅17.2%,凸显记忆与学习能力的关键瓶颈。 ## 3. DeepSeek V4的潜在竞争壁垒 - 若LTM落地,模型将实现“越用越懂”的成长性,而现有模型每次交互均为“白纸状态”。 - 对比OpenClaw外挂记忆方案,原生架构可降低90% token消耗(参考Mem0数据),解决行业长期成本痛点。 ## 4. DeepSeek待补足的四大短板 - **多模态**:纯文本模型需追赶GPT-5.4全模态能力,OCR 2仅限文档解析。 - **Agent能力**:落后于Kimi K2.5(并行1500步骤)和Claude Agent Teams。 - **AI编程**:SWE-bench Pro得分40.9%,显著低于GPT-5.4的57.7%。 - **搜索可靠性**:幻觉率14.3%(Vectara测试),学术引用错误率达91.43%。 ## 5. 梁文锋的“克制哲学”与行业反差 - 拒绝“半成品抢发”策略(如春节竞品扎堆更新),坚持R1式“一击必杀”产品逻辑。 - 架构重构涉及情感交互、记忆迁移等未完成模块,发布时间可能继续延迟。
梁文锋推迟V4,是为了根治龙虾的健忘症?
2026-03-16 17:08

梁文锋推迟V4,是为了根治龙虾的健忘症?

本文来自微信公众号:字母AI,作者:苗正,头图来自:视觉中国


DeepSeek什么时候发V4?AI圈所有人都在猜,但正确答案可能只有梁文锋知道。


豆包、千问、元宝……无论大厂还是小厂,他们都在春节期间扎堆发布新版本,生怕晚一步就被V4的光芒盖过。


换成任何一个正常的CEO,面对这种全行业翘首以盼的局面,早就把半成品推出去了。


先占住声量,再慢慢迭代,这是互联网行业的基本操作。


但梁文锋偏不。跟他关系近的同行说了句大实话:“团队稳,底子厚,不会草率发布。”


外媒报道,V4是架构级重构。包含1万亿参数、百万上下文、原生多模态,并且将于4月份发布。


这次迭代的核心叫做LTM,Long-Term Memory,即长期记忆。


LTM是一套在模型架构内部实现持久化记忆的系统。它能让AI跨对话、跨任务地记住用户是谁、聊过什么、偏好什么。像人一样把重要的东西沉淀下来,而不是每次开机都从零开始。


而这个能力,恰恰是OpenClaw最缺的东西。


虽然OpenClaw可以替人干活,但它的记忆系统本质上只是往本地Markdown文件里写笔记,工作时会持续发送这个笔记到大模型里,这就导致用OpenClaw越久,发送记忆所消耗的token就越多。


整个社区都在想方设法地去解决这个问题,给它打补丁、装插件、装Skill,却没人能从根上解决问题,因为问题出在模型本身,它天生不记事。


LTM要做的,就是从架构层把这个病治好。


此次更新所带来的挑战,远超常规的版本迭代,而且模型的情感交互、个性化记忆等模块尚未完全迁移,还需要进一步调优。


因此梁文锋不是在拖延,而是在克制。


在一个所有人都在比谁先发、谁声量大的行业里,梁文锋选择等所有零件都对了再出手。


R1之所以能一炮封神,靠的不是抢跑,而是一出手就让对手无话可说。


他显然打算用同样的方式对待 V4——要么不发,要发就是王炸。


一、梁文锋到底在憋什么


OpenClaw的爆火让大家认识到了这样一个事,当AI真的开始替人干活,模型对上下文的理解和记忆能力就不再是加分项,而是决定它能不能用的底线。


一个记不住上文的agent,每隔几轮就会重复犯错、丢失任务状态、忘记你刚才说过的话。


所以过去两年,业界也推出了不少的LTM方案。


比如伯克利团队在2023年提出的MemGPT,借鉴虚拟内存的思路,让模型自己决定什么时候把哪些信息从外部存储调入上下文窗口、什么时候换出去。


2025年发布的Mem0,则是把这条路往工程化推了一步,在LOCOMO基准上比OpenAI内置记忆高出26%,token消耗减少90%,这也是现如今OpenClaw社区用得最多的记忆插件。


前两天还有用扩散激活模拟人类联想式记忆提取的SYNAPSE,以及用递归语义压缩解决记忆膨胀的SimpleMem。


但所有这些方案都有一个共同的天花板,那就是它们都是在模型外部运行的中间件。


记忆的提取、压缩、检索,全部由外挂系统完成,模型本身不参与。因此,记忆的质量完全取决于外挂系统的工程水平,模型得到的记忆,也就参差不齐。


并且,所有记忆最终都要通过上下文窗口注入模型,这和OpenClaw碰见的问题一样,记忆越多,那么token成本也就越高。


还有一点,模型无法在外挂记忆上进行“学习”。因为在这个过程中,模型做的事情是在读别人帮它整理好的笔记,而不是真的把经验内化成了能力。


梁文锋要走的,很可能是一条完全不同的路。


从梁文锋署名的Engram论文和V4架构泄露来看,DeepSeek的方向不是在模型外面搭记忆系统,而是把记忆能力直接嵌入模型架构本身。


Engram已经证明,在Transformer内部可以开辟一块专用的条件记忆空间,用O(1)的哈希查找来存取静态知识,在调用已存好的知识时,还不占用上下文窗口的容量,也不增加推理的计算成本。


更关键的是,Engram 的“无限记忆机制”实验表明,这块记忆空间的容量可以近乎无限地扩展,且模型的推理开销保持恒定。


我说得再直白一点,现在的模型想“记住”一件事,唯一的办法是把它塞进对话窗口里,窗口满了就得扔东西。


Engram相当于给模型装了一块独立的硬盘,你可以把记忆存在这个外部的存储里,就不用堆在你电脑本身的硬盘中。当你想调取某一个记忆的时候,你把这块硬盘接上就行。


而且这块硬盘理论上可以无限扩容,查找速度恒定不变。


这条路如果走通,意味着 DeepSeek 跳过了整个“外挂记忆”的技术范式,直接进入了“原生记忆”的时代。


如果你了解OpenClaw,你会发现梁文锋他瞄准的,恰恰是OpenClaw最薄弱的一环。OpenClaw让AI有了手脚,却没给它一颗能记事的大脑。


OpenClaw 的记忆系统有三个结构性缺陷。


第一个是压缩损耗。


上下文窗口塞满后,OpenClaw会自动把旧对话压缩成一段摘要来腾空间。事实保留了,但对话的脉络,全部丢失,而且不可逆。


换句话说,你们在讨论什么、决策的推理链条、语气和优先级都没有了,也都找不回来了。


比如压缩前,agent记得一套完整的调试方案,压缩后只剩一句话,“用户在调试一个bug”,具体的排查路径全没了。


第二个是检索失效。


记忆文件用几周就堆到几百条,靠向量相似度检索召回。可是向量检索只能匹配语义相近的片段,无法理解条目之间的逻辑关系。


比如说我用OpenClaw做了三个方案,这三个方案分散在不同文件里,和客户敲定的是最后一个方案。当我后来想检索敲定的方案时,由于这三个方案都是用来发给客户的,就有可能只检索命中第一个方案或者第二个方案。


第三个是记忆容量有上限。


OpenClaw的记忆分两层:核心记忆(MEMORY.md)每次会话启动时全量注入上下文,日志记忆则通过搜索工具按需召回。


听起来合理,然而核心记忆有硬性上限,单文件20000字符截断,所有bootstrap文件合计不超过150000字符。


可是你用得越久,MEMORY.md越长,要么被截断丢信息,要么每次会话的token消耗线性增长。


还没完,日志那边,按需检索的质量完全取决于模型自己的判断,它觉得不相关就不召回,哪怕信息确实存在。很容易就会把重要的信息给丢掉。


说白了,这三个问题是同一件事:窗口就那么大,往里塞的东西越多,要么记错,要么找不到,要么太贵OpenClaw的记忆不是“记住了”,而是“抄了一堆笔记然后翻不到”。


如果V4真的在架构层面跑通了这条路,那它不仅解决OpenClaw的问题,还能让模型变成“可成长的模型”。


用得越久越懂你。这和当前所有大模型的使用体验有本质区别,因为现在的模型无论多强,每次打开都是一张白纸。


腾讯的一项最新研究,从另一个方向印证了这条路的价值。


从OpenAI加入腾讯担任首席AI科学家的姚顺雨,在2月份的时候发布了他入职后的第一篇署名论文。


论文的名字叫CL-bench,全称Context Learning Benchmark,专门测一件事,就是大模型能不能从上下文里真正学到东西。


不是考它背了多少知识,而是考它能不能从你给的材料里现学现用。


结果很难看。


所有前沿模型的平均正确率只有17.2%。正确率最高的模型是GPT-5.1,可它也只做对了23.7%。换句话说,你精心准备了一份详尽的背景资料喂给AI,它有超过八成的概率没有真正“学会”。


姚顺雨在论文中的判断是,当前 AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人。


他在AGI-Next前沿峰会上也说过类似的观点,他认为大模型迈向高价值应用的核心瓶颈,就在于能否“用好上下文”。


如何记忆,很可能成为2026年的核心主题。一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习。


梁文锋不可能不懂这个道理,这就是为什么发布日期一推再推。


二、DeepSeek要补的课


愿景归愿景,现实归现实。


在梁文锋闭关的这一年里,对手们没有停下来等他。DeepSeek要补的课,比外界想象的多。


第一块短板是多模态,这也是最大的一块。


DeepSeek到今天为止,还是一个纯文本模型。它没办法看图、看视频、听语音。


倒不是说DeepSeek完全没有视觉能力。在今年1月的时候,他们发布了OCR 2,这是一个3B参数的文档理解小模型。它的核心是用一个叫DeepEncoder V2的编码器替代了传统的视觉编码器,让模型能像人一样按阅读顺序理解文档页面。


仅在文档解析的基准测试上,OCR 2用最少的视觉token战胜了Qwen3-VL-235B这种千亿级选手。


但OCR 2只能做一件事:把文档里的文字、表格、公式提取出来。本质上是“图像→文本”的单向转换,不是通用的视觉理解。


换句话说,OCR 2证明了DeepSeek有能力做好视觉编码,但从“能读文档”到“能看视频、听语音、理解自然场景”,中间隔着的不是一步,而是一整个技术代际。


与此同时,其他大厂早就进入了“全模态”时代。


字节的Seedance 2.0证明了优秀的多模态模型有多大的用户基础和商业潜力。GPT-5.4已经原生支持音频、视频和计算机操作。


有消息透露,梁文锋近半年的主要工作之一就是补齐视觉内容处理的短板。


第二块短板是agent能力。


DeepSeek微信公众号自己置顶的文章标题就是“迈向agent时代的第一步”,这就足以说明梁文锋知道该往哪个方向前进。


随着越来越多的人开始使用OpenClaw,无论是大厂还是小厂,都在强调自己模型的agent能力。


Kimi K2.5已经能自主调度100个子agent、并行处理1500个步骤。ChatGPT的agent功能可以自动填表、订机票、跨网站拉取信息。Claude推出了Agent Teams,多个AI协同完成复杂任务。


第三块短板是AI编程。


这是2026年发展最快、商业化最成熟的赛道。


在编程基准测试SWE-bench Verified上,Claude Opus 4.6得分80.8%,GPT-5.3 Codex约80%,DeepSeek V3.2只有73.1%。


在更难的基准SWE-bench Pro上测试,DeepSeek V3.2得分为40.9%,远低于GPT-5.4的57.7%。


更关键的是,行业已经从“Vibe Coding”,进化到了“Agentic Engineering”,让AI独立完成工程级任务。


智谱的GLM-5论文标题就叫《From Vibe Coding to Agentic Engineering》,它能连续24小时跑代码、700次工具调用、800次上下文切换,从零构建出一个GBA模拟器。


此前曾有爆料称,DeepSeek-V4的内部测试结果,在编程能力上超越了Claude Sonnet 3. 。可如今,Claude Sonnet 3.5已经被Anthropic官方完全停用了。


第四块短板是AI搜索。


现在几乎所有ChatBot产品都是联网的,你已经见不到还把模型联网单独设为一个开关的APP了。


OpenAI有ChatGPT Search,Google有Gemini Embedding 2搜索。DeepSeek的搜索能力一直是短板,而且其搜索结果经常会出现幻觉。


Vectara的测试显示,DeepSeek R1的幻觉率高达14.3%,是V3(3.9%)的近四倍。


在学术引用检索的测试中,这个数字更夸张,其引用的结果中,91.43%都是错的,包括但不限于捏造论文标题、虚构DOI、张冠李戴作者。


DeepSeek自己也承认,幻觉是当前阶段“不可避免的”问题。


DeepSeek在它没有自己的搜索基础设施,只能依赖第三方接口,信息源的质量不可控。


模型本身的事实校验能力不够强,即使拿到了正确的检索结果,也可能在生成环节引入错误。这两个问题叠加在一起,就是用户体验上的“搜了也不准”。


在agent时代,搜索不是加分项,而是必选项。


DeepSeek的短板,没有一块是小修小补能解决的。梁文锋不是在做一个更强的V系列模型,他是在同时打四场仗。


4月,箭在弦上。但如果再跳票,也不必意外。对梁文锋来说,“不发”永远比“发错”重要。


本文来自微信公众号:字母AI,作者:苗正

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定