DeepSeek V4预览版发布,聚焦Agent能力提升和性价比优势,但实际表现仍需专业用户验证,硬件训练细节未披露,可能影响产业格局。 ## 1. Agent能力提升与行业竞争 - V4战略方向是提高Agent能力,官方宣称“大幅提高”,但评测反馈仍落后于Claude Opus 4.6和GPT-5.4。 - Claude在Agent领域占据优势,DeepSeek试图通过高Token性价比和1M上下文窗口挑战其地位,但实际效果待验证。 ## 2. 用户反馈与创作表现 - 初期用户反馈V4在文艺创作任务中“太干”或“过于正式”,可能因限制幻觉率导致,但非主要发力方向。 - 消费端用户体验可能影响C端市场争夺,但专业Agent任务表现仍是关键。 ## 3. 训练硬件未披露引发猜测 - 技术文件未明确训练硬件,仅提到测试环境涉及英伟达GPU和华为NPU,引发是否混合架构训练的猜测。 - 开源特性将间接验证优化方向,昇腾推理效率或成关键指标。 ## 4. 对产业界的影响 - 腾讯等厂商依赖高质量开源模型,V4成功或为其争取时间,推动自研或生态整合。 - 混元3.0发布被V4掩盖,凸显第三方模型对行业竞争的重要性。
DeepSeek V4终于来了,我们知道些什么?
2026-04-24 13:24

DeepSeek V4终于来了,我们知道些什么?

本文来自微信公众号: 互联网怪盗团 ,作者:怪盗团团长裴培,原文标题:《DeepSeek V4终于来了!我们知道些什么?》


万众期待的DeepSeek V4预览版终于在北京时间4月24日上午发布了。此前,媒体和分析师曾反复预测V4即将发布,并已经多次预测失败,这一次终于成功了。由于模型发布时间还太短,第三方和客户评测还在紧锣密鼓的进行中,现在的有效信息其实很少。不过,通过技术文档和海外AI社区的初步讨论,我们还是能得到一些情报的。


首先,V4的战略方向是提高Agent能力,这与OpenClaw发布以来的世界潮流相符。“全民养龙虾”的浪潮,给MiniMax,Kimi和智谱等国产大模型厂商带来了巨大的Token增量,但最重要、最专业的增量被Claude吃掉了。Agent能力与编程能力是密不可分的,Claude Code至今仍是全球最强大的AI编程工具(没有之一),GPT-Codex也无法撼动其地位。DeepSeek官方公告在开头最显眼的部分宣称“Agent能力大幅提高”,但也承认“(据评测反馈)仍与Opus 4.6思考模式存在一定差距”。


在海外AI社区,一部分用户十分兴奋,期待DeepSeek成为“Claude杀手”——但公允的说,这只是一种美好愿望,毕竟很多人都很痛恨Claude及其开发商Anthropic,“天下苦Anthropic久矣”。从目前的测试数据看,V4的Token性价比很高,但是Agent Benchmark指标并没有超过Claude Opus-4.6和GPT-5.4。需要注意的是,Benchmark分数只有参考意义,关键还是实际用户体验,Claude在许多Benchmark测试当中并不优于GPT和Gemini,但并不妨碍它在Agent领域几乎一枝独秀。因此,我非常关心接下来一段时间,专业用户使用DeepSeek进行Agent操作的实际反馈。


上下文窗口扩展到1M是一个重要提升,与较低的Token定价结合起来,可能创造较高的生产力。不过,我们仍需要等待专业客户执行复杂任务之后的实际反馈,至少还得等两三天。


我猜测:DeepSeek从传说中的“1月/2月发布”一直拖到今天发布,实际原因可能是打磨Agent能力,因为龙虾这波增量超出了所有人的预期。与其发布一个跟不上现实Agentic Workflow需求的大模型,还不如在等几个月,发布一个完全符合现实需求的大模型。当然这只是我的个人猜测,没有实证。


其次,最初一波海外客户使用反馈,在执行“非深度推理、非数学、非代码”任务,例如头脑风暴和文艺创作时,V4给人的感觉“太干”(dry),“过于正式”,落后于Claude和GPT的最新版本,甚至有人认为落后于GPT-5.2。需要强调的是,这些零碎的主观感受代表不了什么,文艺创作任务也并非V4的主要发力方向。不过,这有可能对消费端用户的倾向造成微妙的影响,从而扰动目前互联网大厂对C端AI应用市场的争夺战。


假设V4的回答真的“太干”“太正式”,有可能是对于V3/R1幻觉率较高问题的一种解决,因为自由发挥几乎一定意味着幻觉率提升,而限制幻觉率几乎一定会让回答“更干”。当然这只是猜测,期待更多更广泛的测试结果。


第三,也是很多人最关心的:DeepSeek V4技术文件披露了很多训练细节,但是不包括训练硬件(显卡)。整份技术文件当中,仅仅提到“华为”(Huawei)一次,提到“英伟达”(Nvidia)三次(不含脚注);提到"GPU"十四次(不含脚注),但都没有提到是什么型号的GPU,仅有一次例外——"We validated the fine-grained EP scheme on both NVIDIA GPUs and Huawei NPUs platforms.但这只是表示测试环境,不代表训练场景(注:这也是唯一一次提到华为昇腾NPU)。


因此,我们仍不知道DeepSeek究竟是在什么硬件上训练出来的。技术文件中有几次提到了CUDA,但也不能据此得出完全基于英伟达架构的结论。是否像某些分析师预期的那样,“基于英伟达和华为昇腾混合架构进行训练”,或者“在后训练环节对昇腾进行了专门优化”?遗憾的是,虽然一切皆有可能,但是DeepSeek官方既无认可、也无否认。相比之下,V3技术文件在一开始就宣布是由英伟达H800和A100训练出来的。


有人根据DeepSeek公告中“预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调”,得出了“V4针对昇腾做了深度优化”,甚至“从1月推迟发布至今就是为了适配昇腾”的结论。虽然不能完全排除这种可能性,但不得不说,这种思维过于跳跃。这只能说明DeepSeek官方会采购或租用一批昇腾算力,并对昇腾推理进行过一些优化(这是很正常的),至于优化程度多深、乃至是否为了适配昇腾而多次推出发布,均还没有任何实证支持。


不过,要间接证明或证伪也不难。V4是开源的,从今天起,会有无数厂商用自己的算力运行推理。假设它确实是基于昇腾训练出来的,或者为昇腾做过深度优化,那么可以推断——它在昇腾硬件上的推理效率,应该高于在英伟达等其他硬件上的推理效率,或至少处于同一量级。又或者,昇腾硬件能够促使V4达到某种独特的性能,而其他硬件做不到。只需要关注一下新闻即可轻松了解实际情况(如果没看到新闻则代表证伪了)。


最后是对产业界的影响。除了DeepSeek自己,最期待V4发布并震惊世界的,大概就是腾讯了。昨天混元3.0大模型预览版刚刚发布,结果其光芒完全被今天的DeepSeek V4遮住了。我还没有机会全面试用混元3.0,但是考虑到此前腾讯在基座大模型方面的落后程度非常大,想用一个版本就达到世界先进水平,似乎不太可能。


因此,腾讯要做好AI生意,不管是做好To B生意(尤其是卖Token的MaaS生意)还是To C生意,恐怕还是要依赖高质量的第三方开源大模型。国内水平最高、使用人数最多的开源大模型是Qwen,那是老对手阿里的,腾讯显然不太愿意用。那就只有依靠DeepSeek,以及几天之前才发过新版本的Kimi了。如果DeepSeek真的开放融资,腾讯一定会不惜代价投进去。V4越成功,就越能让腾讯争取到更多时间,一边争取把自己做成“国产开源生态”的一个集合平台,另一边竭尽全力把自研大模型实力赶上来。


我想,现在最期待V4在用户测试当中传来捷报的,应该是腾讯的投资人和管理层。幸运的是,从最初期的一波反馈看,似乎还不错,海外社区的评价偏向积极一面。但确实还需要更多信息,而且仅仅“偏向积极”是不够的,最好是“十分积极”——我们恐怕还得等上一个星期才能确认。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定