AI模型迭代进入"月更时代"，头部厂商通过架构优化和算力竞争加速智能进化，但算力瓶颈、token涨价和模型与工具链的深度耦合正重塑行业格局，最终落地瓶颈转向组织与人的数字化能力。 ## 1. 新模型能力实测与架构进化 - **Opus 4.7**在长程任务和多模态表现突出，但文字表达退步，反映Anthropic在算力分配上的战略取舍（用户自发形成coding用Opus/写作用Sonnet的分工）。 - **GPT-5.5**通过pre-training改进强化agentic能力，速度优势放大coding试错效率，但仍是应对Opus的过渡产品。 - **DeepSeek V4**以极致性价比和华为芯片适配领先国产模型，其架构探索带动行业成本降低，与闭源SOTA差距缩至6个月内。 ## 2. 模型吞噬工具链的加速趋势 - 新一代模型将开发脚手架内化（如GPT-5.4自动完成iOS App全流程调试），定制化工具链面临重构风险。 - Skills分为能力提升型（3个月即被模型吸收）和偏好编码型（分发价值有限），商业化窗口期短暂。 - 数据飞轮价值存疑：程序员行为数据的清洗成本高，且与具体工具链环境强绑定。 ## 3. 算力瓶颈与国产替代挑战 - 头部模型迭代速度使算力成核心卡点，国产模型需突破10万卡集群、自主软件栈和数据生成能力（如Claude Code的试错轨迹数据）。 - 华为芯片适配虽耗时，但让DeepSeek有望最早享受国产算力红利，连带降低行业门槛。 - AI辅助芯片设计或加速追赶，但2028年前中国仍面临压力。 ## 4. Token涨价与商业逻辑重构 - 中美同步涨价：GPT-5.5价格翻倍，Kimi涨50%，供需缺口驱动（需求涨1000倍vs算力线性增长）。 - 成本端：GPU短缺+运维成本增20%，百万上下文显著推高推理开销；需求端：Agentic场景创造真实ROI（如芯片逆向分析）。 - 头部模型利润率或达千亿美金级（Anthropic API毛利率70%+），但高利润可能引发激烈竞争。 ## 5. 落地瓶颈转向组织与人 - 投研案例显示：非SOTA模型+高质量数据域（实时API整合300维财务数据）即可实现100%选股胜率，人类深度思考仍不可替代。 - 中国企业数字化基础薄弱，权限割裂阻碍系统对接（如代码无法跨部门调取），成为AI应用最大阻力。

2026-04-29 20:11

深度讨论新一轮模型发布：当智能进入月更时代

海外独角兽©

本文来自微信公众号：海外独角兽，作者：Best Ideas 社群，原文标题：《深度讨论新一轮模型发布：当智能进入月更时代 | Best Ideas》

当AI开始加速AI，模型公司的迭代周期正在被进一步压缩，模型公司开始进入“月更时代”。

过去的两周是全球模型的高密度发布期：Anthropic发布Opus 4.7，OpenAI发布Image 2.0和GPT-5.5，腾讯发布Hy3 preview，沉寂了相当长一段时间的DeepSeek也终于带着V4回归。

在DeepSeek V4发布后，我们组织了一场Best Ideas讨论会，和一线AI researcher、开发者、创业者和投资人一起，复盘最近几款模型的真实使用体验，讨论Opus 4.7、GPT-5.5、DeepSeek V4背后的架构变化、能力边界和产业影响。这篇文章是对这场讨论的纪要整理。

What's Next：接下来，我们会继续围绕真实的AI产品构建来组织讨论、观察这一轮智能竞赛。如果你对模型边界有一手体感，正在用这些模型做产品、重构Workflow，对于「AI-native工具链」有独特方法论。欢迎加入我们下一场讨论，分享你的独特判断。

Insight01

新模型一线实测

Opus 4.7

1、Opus 4.7最明显的两个优点：

•Long horizon task的表现明显提升：给它一个比较难的任务可以推进得更长，而且不是靠无节制地烧token，而是在高效的token配比下把任务推到极致。

•多模态理解能力有明显进步，已经追平了目前主流的多模态模型，有可能是为了解锁设计类垂直场景。

2、但Opus 4.7的缺点也很明显：文字表达能力退步了，不像Opus 4.6那样擅长抓重点、说话不绕弯。

3、这个变化很可能是一次阶段性的trade-off：Anthropic做模型时习惯从pre-training层面做优化，每次配比变化都会对体验产生影响，加上RL的持续迭代和tokenizer的更换，可能带来了一些副作用。

4、这种trade-off后可能也存在战略考量：如果不在Opus和Sonnet之间做明确的差异化，用户所有任务都用Opus跑，Anthropic的算力会更加吃不消。现在的结果是用户自然形成了分工：做coding用Opus 4.7，做文字表达切换到Sonnet，这对Anthropic的资源分配反而是好事。

Dario曾经解释过Haiku/Sonnet/Opus这三档分类背后的逻辑，它不是简单的“低/中/高”三档智能，而是同一条“能力-速度-成本”曲线上的三种产品定位，本质上是能力、速度、成本的不同取舍。因此，具体某个模型的升级并不是所有能力同步+1。

GPT-5.5

5、GPT-5.5提升比较明显，它不是像之前5.3、5.4那样纯靠post-training压榨Codex方向的能力，而是从pre-training层面做了实质性的改进。验证了OpenAI是可以做好agentic任务的。

6、GPT-5.5最明显的体感是速度变快。对coding agent来说，速度本身就是能力的一部分，因为很多代码任务不是一次性写对，而是在环境里不断试错、运行、修改。当模型足够快，整个试错链路也会变快，实际效率会被放大，不过到了美国上班时间后会明显变慢。

7、总体来说，GPT-5.5更像是OpenAI用来狙击Opus 4.7/Opus 4.6的模型，而不是最终大招，也不是传言中的Spud模型。

8、今天的SOTA还是Opus 4.7，核心领先优势在于brainstorm和planning能力。很多开发者在做plan mode和brainstorm的时候仍然选择用Opus，因为它对用户意图的理解、在方向探索上的深度和广度，仍然更胜一筹。

DeepSeek V4

9、DeepSeek V4在agentic&coding能力上是开源模型里明确的SOTA，但和闭源模型的SOTA之间仍然有一定差距，这个差距大约在六个月以内。不过考虑到DeepSeek此前一直没有非常重视agentic&coding，能临时追到这个程度已经很厉害了。

10、DeepSeek V4最大的卖点是极致的性价比。它在模型计算FLOPs优化、KV cache压缩等方面做了非常极致的性能优化，如果后面再叠加国产算力，价格还有可能继续被打下来。这也是DeepSeek一直以来最有价值的地方：每当市场在某个阶段出现供需不平衡，它总能给出一个极致优化的局部最优解。

11、DeepSeek在过去很长一段时间里把bet下在了long context上，认为这是下一代范式的基础能力。但long context在智能提升的体感上不像coding&agentic那么明显和直观，如果V4能更早发布（比如去年底），借助OpenClaw带起来的这波agentic热潮，效果可能会更好。

12、DeepSeek使用华为芯片这件事，大多数人关注的是“国产替代”本身，但更值得关注的视角是：DeepSeek又比别人早了半步。虽然适配华为芯片确实耽误了相当长的时间，但如果它最早把华为950跑通了，接下来就可能最早吃到华为产能的红利。

13、DeepSeek的历史意义不仅在于单个模型的性能，更在于它已经演化成中国为数不多能够独立探索新模型架构的厂商。每次DeepSeek的新架构出来，即使没有在能力上达到SOTA，也会带动智谱、Kimi等国内厂商跟进架构升级，连带降低整个行业的inference和训练成本。这次DeepSeek跑通了华为950集群的集成，只要其他厂商用类似架构，上950的门槛也会显著降低。

14、Google异常的安静可能不是因为落后了，而是因为觉得自己有把握。Google的算力资源实在太充裕了，它的de-risk集群都比OpenAI和Anthropic最大的训练集群要大。从和Google内部团队的交流来看，他们似乎对自家模型比较有信心，并不急于在现在回应竞争对手的每一次发布。

Insight02

模型吃掉一切脚手架

15、模型把“脚手架”训进去的速度非常惊人。一个典型的开发体验是，在GPT-5.4发布后，在同样的需求下，它和前一天的GPT-5.3已经呈现出完全不同的行为模式：有朋友提出了一个iOS App的开发需求，Codex没有停留在写代码或给步骤，而是主动识别到手机和电脑处在同一网络环境里，进一步判断可以直接把App部署到手机上，并挂上调试进程。随后，它会让用户直接打开App体验，自己在后台观察日志、记录用户操作行为、定位bug，再修改代码、重新部署。

16、过去这套闭环通常需要很多外部脚手架来帮模型组织，但现在模型已经自己成为了一个能跑完整开发流程的软件工程师。

17、从实际使用体验来看，模型升级对使用不同harness框架的用户带来的影响也非常不同：

•Opus 4.7更新后，没有搭建自己脚手架的用户会感受到AI能力有飞跃，因为模型本身已经把很多long running task的能力训进去了，可以自发地跑很长时间。

•但基于Opus 4.6精心定制过脚手架的用户，反而会觉得效果变差。具体表现为，token消耗量明显增大、频繁触发context压缩、会更积极地要求开新session而不是在当前session里复用，甚至在设置了YOLO模式后仍然会无视指令。

这背后的原因大概是：Opus 4.7在RL训练中是以team coordination的模式来做long horizon task的，所以在使用过程中，最适配的方式也是把主agent设计成team coordinator，用agent-to-agent的方式去跑，而不是直接让主agent去自主完成长程任务。

18、也有AI开发者提到，从GPT-5.2开始，OpenAI和Anthropic在模型的开发能力上已经没有太大差别，差距更多来自Codex和Claude Code之间harness的差距，而这个harness的差距在Q1也已经逐渐追平。他在春节后选择全面切到Codex，因为整体体验更稳定，在速度、开发能力、供应量、稳定性，以及账号风险等方面都更好。

19、上面这些case都这暴露出一个趋势：模型和harness的耦合关系在变得越来越紧。新模型不是一个抽象的、更强的“通用大脑”，而是带着某种非常具体的使用范式一起发布。它的训练方式、system prompt、RL数据分布，都会暗含“应该怎么使用它”。如果外部开发者没有按这个具体方法使用，效果可能会大打折扣。

20、这个趋势对于harness领域的创业公司来说是一个危险的信号：因为如果你的harness是根据上一代模型的能力和缺陷设计出来的，一旦下一代模型把这些能力训进去了，你的harness会瞬间变成technical debt。除非harness本身更像一个可以随模型自动生成、自动编译、自动适配的系统，否则每次模型升级都会带来一次重构。

21、模型吞噬harness的趋势同样对Skills领域带来影响。当下的讨论中提到的Skills AppSotre、Marketplace本质上还是把Skills默认为插件、模板的存在，但Skills的商业化更像一个短期窗口，而不是一个长期平台型机会。

22、今天的Skills可以分为2类：

•类型1：Capability uplift（能力提升），也就是让模型学会原本不会的事情，它的保鲜期大约只有三个月，因为有价值的部分一定会成为模型的养料，会在下一个版本被训进模型；

•类型2：Encoded preference（偏好编码），也就是把个人偏好喂给模型，补充的是具体用户的个性化偏好，那它也会因为高度个性化而分发价值有限。

23、Coding/Agentic场景下是否已经建立起数据飞轮？

•掌握用户数据一定是重要的，但用户数据并不能直接拿来训练模型，因为这些原始数据的清洗成本极高；

•数据飞轮更多体现在产品层面：当一个产品拥有全世界最多的程序员在你的平台上编程，你就能从统计意义上理解这几百万核心开发者的preference到底是什么，比如他们的编程习惯是怎样的、什么环节会介入。这种理解会持续反哺产品迭代，让产品越来越贴合真实用户的工作流。

•但这是不是一个足够深的壁垒，目前还不好说。它取决于程序员的行为模式到底有多碎片、多复杂，需要多大的样本量才能充分捕捉，以及这些数据和具体产品的harness环境绑定有多深等等。

Insight03

模型越快迭代，算力瓶颈越大

24、过去两三年大家反复讨论Scaling Law能不能继续，最终总是落到数据够不够的问题上，但现在往后看一到两代模型，数据不是卡点，算力才是。尤其当头部模型公司已经进入了AI加速AI研发的自循环，这意味着模型迭代速度会越来越快，算力也会越来越紧俏。

25、最新的Mythos超大参数模型发布后，最大的限制就是需要极大的集群才能serve起来，可能需要NVIDIA GB200/GB300 NVL72或者Google TPU7x/Ironwood这种级别的硬件。

26、国产模型要缩小和海外顶尖模型的差距，核心可能是三点：

(1)能组织起10万卡以上的高性能、稳定训练集群。这不仅要考验GPU数量，更考验GPU之间的连接能力，两者都有待补齐。

(2)自主建立起类CUDA的软件栈，不能永远被英伟达生态卡住。

(3)有更好的数据生成能力，比如synthetic data，以及像Claude Code一样通过更好的产品掌握用户在真实任务里执行、试错、纠错的轨迹数据，了解真实的数据分布情况。

27、短期来看，算力是远比数据更大的挑战。中国开源模型在过去一年给了市场一种“追得很快”的感觉，但接下来有可能会阶段性地卡一下。因为国内模型现在在模型大小上和海外御三家还有不小的差距，要跳到下一个level，可能至少需要四、五万张卡以上的集群支撑。

28、不过在更长的时间尺度上，中国在芯片方面的追赶速度可能被低估了，只是短期内（比如2028年之前）压力仍然很大：

•随着美国几家AI大厂开始自研芯片，客观上会增加市场上懂芯片设计的人才供给，其中一部分know-how可能会流回中国。

•Coding Agent能力的提升也让手搓优化kernel、从一个架构迁移到另一个架构的难度在下降。以前这个过程预计需要5到10年追赶，但今天在AI的辅助下可能会被加速。

Insight03

Token涨价是确定趋势

29、Token涨价会是一个确定性事件，中美两个市场同步进入涨价周期，尤其国内从“价格战”模式逐渐切换到“性能定价”模式：

•OpenAI的GPT-5.5相较于GPT-5.4 token价格翻倍；

•智谱的GLM 5.1相比于GLM 4.7，也在三个月左右token定价翻倍；

•Kimi的K2.6相较于K2.5 token定价大概涨了50%。

30、涨价首先是由供需关系驱动：当前对token（AI智能）的需求是非线性增长，但供给只能线性扩张。未来两年token需求可能涨1000倍，数据中心也就扩几倍，供需缺口越来越大。

•成本端：今年算力成本至少上涨了20%：

(1)GPU极度稀缺，包括Anthropic的几乎每家AI厂商都要面临缺卡难题；

(2)集群的运维成本也在涨；

(3)模型变大、上下文变长，尤其是百万上下文对推理成本的影响非常显著，生成单个token所需的计算量和显存需求都大幅增加；

•需求端：Opus 4.5之后，模型智能在复杂场景和任务上的表现提升，Agentic和coding场景开始创造真实ROI，以前不可想象的用例正在批量出现，且每个场景都极度消耗token。只要企业发现模型能带来正向经济价值，就会愿意为更强模型支付更高token价格。

随着模型能力提升，更多新的高token消耗用例还在不断被解锁。例如SemiAnalysis最新播客访谈中提到，他们利用AI可以通过一张照片让模型反向拆解芯片里用了什么金属、对应什么设计，再进一步推理出一个投资判断。

31、DeepSeek最早把国产开源模型的API定价打到了极低水平，这对国内模型厂商、推理厂商来说不太健康。因为中国模型并不天然拥有低一个数量级的成本优势，后面可能会有一次“价格修复”。

32、考虑到DeepSeek过去并没有大规模对外提供商业化API，所以过去的定价并不具备参考性。但接下来它自己也必须考虑商业可持续性。

33、Anthropic和OpenAI可能明年一家的ARR就可以到达2000-3000亿美金，假设模型训练成本300亿美金，推理端毛利率60%(Anthropic目前的API毛利率据说已经有70%+)，那么头部模型一年的净利润可以达到近千亿美金，这已经超过Meta的利润水平。如果未来训练算力的投入占比持续下降，头部模型的利润率会非常可观。

但这么高的利润率能不能守得住，才是真正的问题。回顾历史，任何行业出现这种margin都会吸引激烈的竞争。两年前Google DeepMind说过一句话："We don't have a defending moat,neither does OpenAI"，这句话到今天似乎仍然成立。

34、关于需求侧的渗透率，目前agent类产品的渗透率可能只有5%左右，仍然很低。一个粗略估计是，Codex周活用户约400w，Claude Code可能约1000w；加上其他agent产品，总用户可能在2000-3000w。相对全球4亿左右的高级知识工作者，这个渗透率大概也就是5%，远远没有到天花板。

35、AI时代的商业逻辑和互联网时代有一个根本不同：互联网时代单客的客单价是相对固定的，但AI时代一个人的客单价几乎没有上限，一个深度用户可以每天消耗上亿token。Claude Code现在头部10%用户大约贡献了80%-90%的营收，power law非常明显，这意味着渗透率和使用深度是两个独立的增长维度，后者相比前者，可能反而有更大的释放空间。

Insight04

用好AI的bottleneck在于人本身

36、今年Q1，模型能力已经跨越了拐点，接下来的核心竞争战场不再是模型智能本身，而是上下文和外部能力的对接。对企业来说是整个经营体系在数字世界里的完整映射，对个人用户来说就是自己的上下文管理。

37、有一位二级朋友分享了自己实际用AI辅助投研的完整流程，她从大约一万多家标的出发，搭建了一个多维度、多轮筛选的agent工作流。

•第一层是用结构化数据筛选公司的财务健康度：先从Wind、Bloomberg等数据源里拉取数据，整体大概有300多个维度，把1万多家公司按财务质量、估值、成长性、波动、盈利能力、资本结构先筛一遍，剔除基本面不健康的标的。

•第二层是利用非结构化数据做趋势判断：比如可以通过YouTube API实时抓取行业关键人物的公开发言，黄仁勋、Dario等说了什么，同时整合Stratechery、SemiAnalysis等深度分析源的内容，形成一些对行业、公司的认知判断。

•第三层是用聪明钱做验证和估值分类：参考特定机构、特定投资人的持仓或方向，结合估值模型做最终筛选。

整个过程花了2-3天，人全程参与，从1万多家公司，筛到1000家、100家，最后锁定个位数标的，目前选股胜率是100%。

38、在投研场景里，不需要SOTA模型，真正决定效果的，往往是数据域：

•数据solid程度如何(这里可以设计多种维度互相校验)；

•数据实时性如何(比如是否能通过Yahoo、Youtube等各类数据源的API实时捕捉最新的趋势变化)，

这两点最大程度上决定了这个agent的上限。换句话说，模型只是发动机，数据域和workflow才是投研agent的护城河。

39、人的判断没有消失，但人的杠杆被放大了很多。AI在投研里最强的价值是“宽搜索”。AI可以在两三天内扫完1万家公司的所有数据维度，但人类最强的价值依然是“深度思考”。人类的直觉、对异常信号的感知、对单点问题的判断，仍然非常关键。

40、中国企业的数字化基础普遍很差，包括大互联网公司也是如此，即便数字化做得不错的企业，组织权限的割裂也会严重限制AI的效果。一个很现实的例子是，做系统对接时，最高效的方式是把两个系统的源码都拉到一起，让AI通读两边逻辑。但现在，不同系统的代码权限分属不同的员工，根本不允许拉通。所以，用好AI的bottleneck越来越不是模型本身，而是人和组织。谁能把上下文和权限打通得更彻底，谁的组织转速就会更快。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP