DeepSeek-V4的发布标志着中美AI发展路径的分化:中国聚焦高效普惠的开源模型,美国追求高成本闭源智能体,双方技术差距约3-6个月,但长期竞争格局仍存变数。 ## 1. 中美AI发展路径的分野 - 中国模型(如DeepSeek-V4)以成本效率和工程优化为核心,支持百万token上下文,单token推理FLOPs降至V3.2的27% - 美国模型(如Anthropic)围绕能力上限定价,形成"智能体吞噬软件"的高溢价叙事,但商业可持续性存疑 - 双方技术差距约3-6个月,中国在长上下文处理等特定领域已实现突破 ## 2. 工程突破:从注意力机制到算力协同 - 创新混合注意力机制(CSA+HCA)实现128:1的KV缓存压缩率,突破长序列处理瓶颈 - 华为昇腾950DT实现Day 0适配,单卡支持388TPS(V4-Pro)和4722TPS(V4-Flash) - MegaMoE架构通过FP4精度和通信-计算重叠技术,提升国产芯片利用率 ## 3. 开源生态的普惠价值 - DeepSeek-V4成为闭源模型的低成本替代方案,单位token成本持续下降 - 美国初创企业(如Replit)已开始采用中国开源模型降低运营成本 - 开源策略可能在未来硬件受限时形成"船板替换"效应,逐步替代英伟达技术栈 ## 4. 行业竞争的关键变量 - 训练数据与环境(非单纯算力)构成美国闭源模型的护城河 - AI叙事每12-18个月转移一次,中国在特定领域(如强化学习)可能实现反超 - 英伟达NVFP4与华为MXFP4的低精度竞赛将决定下一代硬件效率边界
DeepSeek-V4,需要一次重估
2026-04-27 00:03

DeepSeek-V4,需要一次重估

本文来自微信公众号: 未尽研究 ,作者:未尽研究


24日,DeepSeek-V4的“突然”发布,没有再次惊吓华尔街。


当晚,英伟达股价上涨超过4%,市值稳稳站上5万亿美元。而在15个月前,DeepSeek-R1曾让它单日暴跌17%。


市场的平静宣告了,从推理时代到智能体时代,中国与美国,已经形成两套不同的“token经济学”与AI叙事。一种围绕围绕成本效率扩展,受算力约束;另一种盯着能力上限定价,以稀缺为前提。双方各自走上了一条无法轻易掉头的路——


真的如此吗?


落后3-6个月


DeepSeek将这次发布称为“预览”。在技术报告中,团队自称目前的架构,仍然不够优雅,还有很多积极探索并没有来得及融入进来。


“预览版”包括两款,“性能比肩顶级闭源模型”的DeepSeek-V4-Pro,为1.6T总参数、49B激活参数;“更快捷高效的经济之选”的DeepSeek-V4-Flash,为284B总参数、13B激活参数。两者均原生支持百万token上下文,但仍然不支持多模态。


仅从参数规模而言,DeepSeek-V4就仍然明显落后于当前最前沿的闭源模型。DeepSeek自己也承认,演进轨迹落后美国前沿3-6个月,Agentic Coding的实际体验,优于Sonnet 4.5,但距离Opus 4.6思考模式存在差距。


在通用基准日渐饱和,个人测评相对主观的环境下,DeepSeek团队在技术报告的最后,点名感谢了DollyDeng的测评意见。后者认为V4-Pro在编程上的特点在于,广泛的编程知识、长上下文的低幻觉、偶发性的注意力失焦、不讲究的架构与UI;V4 Pro的max和high档位,都有着相当高的可用性。


而海外研究机构semianalysis在测评后,也仍然称其为“卓越的工程版本”,紧贴SOTA水平,将成为闭源模型的最低成本替代方案。



相较于上一代模型,DeepSeek-V4在“工程”领域的核心进步,在于上下文窗口的扩展。在百万token上下文场景下,V4-Pro的单token推理FLOPs,仅为DeepSeek-V3.2的27%,KV缓存大小仅为10%;V4-Flash的效率提升更为激进,FLOPs仅为10%,KV缓存仅为7%。这比上个月市场热炒的谷歌TurboQuant论文,影响更为深远。


DeepSeek将“迈向高效百万token上下文智能”,视为当下最迫切解决的问题。它为高效处理超长序列的能力开启了测试时扩展的新前沿,为深入研究长时任务铺平了道路,并为探索在线学习等未来范式奠定了必要基础。


但是,随着上下文长度达到极端规模,注意力机制的计算瓶颈问题愈发凸显。由于客观上的算力约束,优化注意力机制,长期以来都是DeepSeek等中国开源模型厂商的关键任务。这次,DeepSeek-V4在继承了此前DSA与mHC创新的基础上,吸收了月之暗面对Muon优化器的验证,进一步提出了CSA(压缩稀疏注意力)与HCA(重压缩注意力)等的混合注意力机制。


从DSA到Engram,一年来DeepSeek层层勾勒V4架构创新


2026/01/14完整阅读>


简言之,CSA以4:1的压缩率将KV缓存压缩成一个条目,随后采用稀疏注意力加速;而HCA则将压缩率大幅提升至128:1,但压缩后的KV缓存,全部参与后续计算。两种机制交替进行,既保证全局感知,又保证精细检索。


按照DeepSeek的规划,未来,团队将在DeepSeek-V4的基础上,除了更“稀疏”的专家和注意力架构外,还将在更多维度上探索模型的稀疏性,包括Engram所要解决的“记忆”的稀疏化,后者相当于模型内部的“存算解耦”,有效绕过了GPU的HBM限制,为激进的参数扩展铺平了道路。DeepSeek还在努力将多模态能力融入模型。


昇腾Day 0适配


在DeepSeek-V4发布后,华为与寒武纪第一时间宣布实现了Day 0支持。这意味着至少在推理协同上,它已与国产芯片深度协同优化。


到目前为止,中国开源模型仍然选择兼顾英伟达与国产芯片。据semianalysis分析,这款模型的参数设计,刚好能容纳在8块H20在FP4精度下的内存容量之内。而H20在中国的存量规模足够庞大,短期内仍是推理主力。尽管如此,该机构还是相信,该模型的推理服务,“相当可观的一部分”将由昇腾(Ascend)来承载。


华为昇腾芯片将为DeepSeek-V4推理,通往国产算力自由|笔记


2026/04/05完整阅读>


据昇腾CANN的介绍,基于16卡昇腾950DT的算力基础设施,DeepSeek-V4-Pro在多并发吞吐下,可以在单请求延迟20ms的情况下,实现388TPS(tokens per second)的吞吐速度。DeepSeek-V4-Flash更是高达4722TPS。昇腾950DT将于下半年全面上市,这是一款兼顾推理Decode阶段与训练的芯片。



在技术报告的正文中,DeepSeek一共提及华为(Huawei)1次,英伟达(Nvidia)2次。最关键的一句话是“我们在英伟达GPU和华为昇腾NPU平台上对细粒度EP方案进行了验证。”这实际上指向MegaMoE核心算子与MXFP4低精度数据路径的适配能力。


这都是DeepSeek-V4在正式开源前一周,已经悄悄向社区开源的。MegaMoE的核心在于对专家并行(MoE)中的计算与通信进行更细粒度的重排,两者重叠(overlap)以在执行过程中“隐藏”通信延迟,从而缓解互连带宽带来的瓶颈。而向FP4精度要效率,将大幅降低降低数据搬运成本,提升计算单元利用率并逼近理论峰值性能。


一度,市场也因此怀疑,DeepSeek-V4就是在英伟达的Blackwell架构上训练的。此前,英伟达为Hopper架构引入创新的NVFP8精度格式,Blackwell则进一步推出NVFP4。英伟达对未来需求的主动预见,是代际性领先的。早在2024年,黄仁勋介绍Blackwell的时候,市场仍将FP4视为一种营销手段。其他AI芯片公司,后来才对需求做出反应。


但是,向低精度要效率,已是行业趋势。谷歌第八代TPU也在尝试原生FP4训练与推理,而去年华为发布昇腾950系列,也早已预告了支持业界标准FP8/MXFP8/MXFP4。不过,报告指出,在训练阶段,仍然是“无缝复用现有的FP8混合精度框架”。


现在,DeepSeek正在扮演对未来需求做出指引的关键角色。技术报告鼓励,在下一代硬件设计可以更多地考虑计算-通信比(C-C Ratio)、功率预算(Power Budget)、通信原语(Communication Primitives)与激活函数(Activation Function)。尤其是基于MegaMoE工程实践,得出每1GBps互联带宽足以支撑6.1 TFLOP/s计算的判断,可能是整篇论文产业影响最深远的数据点。


AGI属于每个人


软硬件协同的方向,指向算力自由,也指向AI普惠。DeepSeek-V4发布当天,DeepSeek研究员陈德里在社交媒体平台X上,“谦卑”、“始终”地表态,AGI属于每个人。


一旦今年下半年昇腾950超节点规模上线,以及DeepSeek-V4的持续优化,它的单位token成本还会持续下降。团队还进一步指出,该模型采用的FP4×FP8运算,尽管在现有硬件上,只能跑出与FP8×FP8相同的峰值FLOPS,但是理论上,未来的硬件可以进一步实现1/3的效率提升。


而美国对于AGI的叙事,在经历去年对“泡沫”的恐慌后,现在几乎已经被Anthropic所主导。AI即将吃掉软件,并由此通往吃掉全世界的AGI。谁占有越多最先进的算力,就越有可能研发出最高智能的前沿模型(及其智能体执行环境),进而匹配最高的价格,因为它在解决最有价值的任务。而Mythos强到只能由Anthropic指定极少数使用者。


谷歌400亿美元加码Anthropic,它在同时下注两条AGI赛道|笔记


2026/04/25完整阅读>


英伟达、亚马逊、谷歌,以及OpenAI与xAI,都开始被这一AI叙事所俘获。这是一条自我强化的路径。模型变得越来越昂贵,但仍然有人争先恐后地买单;Anthropic推出哪一个垂直领域的智能体工具,那些上市公司的股价就开始狂跌。自从用上了Claude Code,Uber今年的全年AI预算,短短4个月就已经耗尽。


但是,即使在美国,这套叙事也并非完美。大多数生产工作负载,都不会触及智能的上限;而正在恐慌式尝试智能体的软件企业,它的AI投入能否在终端市场转化为规模扩展持续性收入,也仍有待验证。


云厂商CloudFlare就认为,个人智能体和编码智能体的兴起,意味着成本不再是次要问题,这是扩展规模的主要障碍。编码软件公司Replit首席执行官Amjad Masad也说,中国研究者实际上公开分享了真正的人工智能突破,惠及所有人,包括小型(甚至可能是大型)美国实验室。HuggingFace的CEO在下面表示认同。编码软件公司Cline创始人Saoud Rizwan则调侃说,如果把这笔预算分配给DeepSeek-V4-Pro,就足够烧84个月。


黄仁勋的破防


即使再过3-6个月,中国开源模型也无法追平闭源模型的水平。差距客观存在。年初,EpochAI统计显示,自2023年以来,中国模型平均落后美国7个月,最小差距4个月,最大差距14个月。


DeepSeek曾承认,训练算力约束了旗舰模型在世界知识上的覆盖广度。DeepSeek-V4同时跑在华为与英伟达芯片上,相当于在为未来的切换做“基准测试”。毕竟,英伟达用十几年建起的CUDA生态,不是一朝一夕就能超越的。


这也不是单纯的技术追赶。美国艾伦实验室的研究员Nathan Lambert认为,数据与训练环境是真正的护城河。而在当前AI叙事聚焦于智能体,尤其是编程智能体的时候,美国的闭源模型拥有压倒性的优势。中国的软件行业仍然缺乏积累,这是蒸馏所无法替代的;中国金融、法律与医疗行业,也缺乏美国这样如此慷慨的支付能力。


但这种优势,并非不可动摇。不同能力方向,对应着完全不同的训练数据与后训练方式。Nathan Lambert总结道,AI叙事的重点大约每12–18个月就会发生一次转移。从对话到推理再到智能体,如果下一个强化学习环境恰好是中国积累最深的领域,杠杆就在中国这边。DeepMind创始人哈萨比斯也相信,AGI还需要几个Transformer级的重大发现,在5-10年之后才有可能实现。窗口期依然存在。


为什么开放模型会拉开与封闭模型的差距|笔记


2026/04/17完整阅读>


Android并非因为优于iOS而胜出。而是因为其更低的门槛与更广的可及性。前者代表高价值与高溢价能力,后者则代表规模与普及。目前,DeepSeek-V4针对FP4的推理优化,客观上有利于这些美国创业者在英伟达芯片上低成本嵌入中国开源模型。


但更深的长期逻辑在于,随着英伟达下一代Rubin系列,受到愈发严苛的供应链管制,DeepSeek将越来越难以针对性地放大英伟达GPU的性能优势。除了美国最有钱的那批企业,更多的应用开发者将继续跑在中国开源模型的船上;然后,中国算力硬件在性能逐步提升的情况下,深度参与协同优化,一块块替换掉底层的美国技术栈。等船靠岸时,可能没有一块板子是原来的英伟达了,而船上的人,从未离开。


很多人,仍然没有在这个意义上,真正理解黄仁勋面对芯片管制时的破防。


DeepSeek的压力在于,如何在更低单位token价格的情况下,让自己坚持走到“AGI普惠”的目的地。这也意味着,它必须在一条更慢、更难、也更不被资本市场即时奖励的道路上前行。这也是为何在发布DeepSeek-V4时,团队以“不诱于誉,不恐于诽,率道而行,端然正己”作结。


如今,DeepSeek终于不再否认融资传闻。希望它的投资人,也能理解这句话的分量。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定