AI模型迭代进入"月更时代",头部厂商通过架构优化和算力竞争加速智能进化,但算力瓶颈、token涨价和模型与工具链的深度耦合正重塑行业格局,最终落地瓶颈转向组织与人的数字化能力。 ## 1. 新模型能力实测与架构进化 - **Opus 4.7**在长程任务和多模态表现突出,但文字表达退步,反映Anthropic在算力分配上的战略取舍(用户自发形成coding用Opus/写作用Sonnet的分工)。 - **GPT-5.5**通过pre-training改进强化agentic能力,速度优势放大coding试错效率,但仍是应对Opus的过渡产品。 - **DeepSeek V4**以极致性价比和华为芯片适配领先国产模型,其架构探索带动行业成本降低,与闭源SOTA差距缩至6个月内。 ## 2. 模型吞噬工具链的加速趋势 - 新一代模型将开发脚手架内化(如GPT-5.4自动完成iOS App全流程调试),定制化工具链面临重构风险。 - Skills分为能力提升型(3个月即被模型吸收)和偏好编码型(分发价值有限),商业化窗口期短暂。 - 数据飞轮价值存疑:程序员行为数据的清洗成本高,且与具体工具链环境强绑定。 ## 3. 算力瓶颈与国产替代挑战 - 头部模型迭代速度使算力成核心卡点,国产模型需突破10万卡集群、自主软件栈和数据生成能力(如Claude Code的试错轨迹数据)。 - 华为芯片适配虽耗时,但让DeepSeek有望最早享受国产算力红利,连带降低行业门槛。 - AI辅助芯片设计或加速追赶,但2028年前中国仍面临压力。 ## 4. Token涨价与商业逻辑重构 - 中美同步涨价:GPT-5.5价格翻倍,Kimi涨50%,供需缺口驱动(需求涨1000倍vs算力线性增长)。 - 成本端:GPU短缺+运维成本增20%,百万上下文显著推高推理开销;需求端:Agentic场景创造真实ROI(如芯片逆向分析)。 - 头部模型利润率或达千亿美金级(Anthropic API毛利率70%+),但高利润可能引发激烈竞争。 ## 5. 落地瓶颈转向组织与人 - 投研案例显示:非SOTA模型+高质量数据域(实时API整合300维财务数据)即可实现100%选股胜率,人类深度思考仍不可替代。 - 中国企业数字化基础薄弱,权限割裂阻碍系统对接(如代码无法跨部门调取),成为AI应用最大阻力。
深度讨论新一轮模型发布:当智能进入月更时代
2026-04-29 20:11

深度讨论新一轮模型发布:当智能进入月更时代

本文来自微信公众号: 海外独角兽 ,作者:Best Ideas 社群,原文标题:《深度讨论新一轮模型发布:当智能进入月更时代 | Best Ideas》


当AI开始加速AI,模型公司的迭代周期正在被进一步压缩,模型公司开始进入“月更时代”。


过去的两周是全球模型的高密度发布期:Anthropic发布Opus 4.7,OpenAI发布Image 2.0和GPT-5.5,腾讯发布Hy3 preview,沉寂了相当长一段时间的DeepSeek也终于带着V4回归。


在DeepSeek V4发布后,我们组织了一场Best Ideas讨论会,和一线AI researcher、开发者、创业者和投资人一起,复盘最近几款模型的真实使用体验,讨论Opus 4.7、GPT-5.5、DeepSeek V4背后的架构变化、能力边界和产业影响。这篇文章是对这场讨论的纪要整理。


What's Next:接下来,我们会继续围绕真实的AI产品构建来组织讨论、观察这一轮智能竞赛。如果你对模型边界有一手体感,正在用这些模型做产品、重构Workflow,对于「AI-native工具链」有独特方法论。欢迎加入我们下一场讨论,分享你的独特判断。


Insight01


新模型一线实测


Opus 4.7


1、Opus 4.7最明显的两个优点:


•Long horizon task的表现明显提升:给它一个比较难的任务可以推进得更长,而且不是靠无节制地烧token,而是在高效的token配比下把任务推到极致。


•多模态理解能力有明显进步,已经追平了目前主流的多模态模型,有可能是为了解锁设计类垂直场景。


2、但Opus 4.7的缺点也很明显:文字表达能力退步了,不像Opus 4.6那样擅长抓重点、说话不绕弯。


3、这个变化很可能是一次阶段性的trade-off:Anthropic做模型时习惯从pre-training层面做优化,每次配比变化都会对体验产生影响,加上RL的持续迭代和tokenizer的更换,可能带来了一些副作用。


4、这种trade-off后可能也存在战略考量:如果不在Opus和Sonnet之间做明确的差异化,用户所有任务都用Opus跑,Anthropic的算力会更加吃不消。现在的结果是用户自然形成了分工:做coding用Opus 4.7,做文字表达切换到Sonnet,这对Anthropic的资源分配反而是好事。


Dario曾经解释过Haiku/Sonnet/Opus这三档分类背后的逻辑,它不是简单的“低/中/高”三档智能,而是同一条“能力-速度-成本”曲线上的三种产品定位,本质上是能力、速度、成本的不同取舍。因此,具体某个模型的升级并不是所有能力同步+1。


GPT-5.5


5、GPT-5.5提升比较明显,它不是像之前5.3、5.4那样纯靠post-training压榨Codex方向的能力,而是从pre-training层面做了实质性的改进。验证了OpenAI是可以做好agentic任务的。


6、GPT-5.5最明显的体感是速度变快。对coding agent来说,速度本身就是能力的一部分,因为很多代码任务不是一次性写对,而是在环境里不断试错、运行、修改。当模型足够快,整个试错链路也会变快,实际效率会被放大,不过到了美国上班时间后会明显变慢。


7、总体来说,GPT-5.5更像是OpenAI用来狙击Opus 4.7/Opus 4.6的模型,而不是最终大招,也不是传言中的Spud模型。


8、今天的SOTA还是Opus 4.7,核心领先优势在于brainstorm和planning能力。很多开发者在做plan mode和brainstorm的时候仍然选择用Opus,因为它对用户意图的理解、在方向探索上的深度和广度,仍然更胜一筹。


DeepSeek V4


9、DeepSeek V4在agentic&coding能力上是开源模型里明确的SOTA,但和闭源模型的SOTA之间仍然有一定差距,这个差距大约在六个月以内。不过考虑到DeepSeek此前一直没有非常重视agentic&coding,能临时追到这个程度已经很厉害了。


10、DeepSeek V4最大的卖点是极致的性价比。它在模型计算FLOPs优化、KV cache压缩等方面做了非常极致的性能优化,如果后面再叠加国产算力,价格还有可能继续被打下来。这也是DeepSeek一直以来最有价值的地方:每当市场在某个阶段出现供需不平衡,它总能给出一个极致优化的局部最优解。


11、DeepSeek在过去很长一段时间里把bet下在了long context上,认为这是下一代范式的基础能力。但long context在智能提升的体感上不像coding&agentic那么明显和直观,如果V4能更早发布(比如去年底),借助OpenClaw带起来的这波agentic热潮,效果可能会更好。


12、DeepSeek使用华为芯片这件事,大多数人关注的是“国产替代”本身,但更值得关注的视角是:DeepSeek又比别人早了半步。虽然适配华为芯片确实耽误了相当长的时间,但如果它最早把华为950跑通了,接下来就可能最早吃到华为产能的红利。


13、DeepSeek的历史意义不仅在于单个模型的性能,更在于它已经演化成中国为数不多能够独立探索新模型架构的厂商。每次DeepSeek的新架构出来,即使没有在能力上达到SOTA,也会带动智谱、Kimi等国内厂商跟进架构升级,连带降低整个行业的inference和训练成本。这次DeepSeek跑通了华为950集群的集成,只要其他厂商用类似架构,上950的门槛也会显著降低。


14、Google异常的安静可能不是因为落后了,而是因为觉得自己有把握。Google的算力资源实在太充裕了,它的de-risk集群都比OpenAI和Anthropic最大的训练集群要大。从和Google内部团队的交流来看,他们似乎对自家模型比较有信心,并不急于在现在回应竞争对手的每一次发布。


Insight02


模型吃掉一切脚手架


15、模型把“脚手架”训进去的速度非常惊人。一个典型的开发体验是,在GPT-5.4发布后,在同样的需求下,它和前一天的GPT-5.3已经呈现出完全不同的行为模式:有朋友提出了一个iOS App的开发需求,Codex没有停留在写代码或给步骤,而是主动识别到手机和电脑处在同一网络环境里,进一步判断可以直接把App部署到手机上,并挂上调试进程。随后,它会让用户直接打开App体验,自己在后台观察日志、记录用户操作行为、定位bug,再修改代码、重新部署。


16、过去这套闭环通常需要很多外部脚手架来帮模型组织,但现在模型已经自己成为了一个能跑完整开发流程的软件工程师。


17、从实际使用体验来看,模型升级对使用不同harness框架的用户带来的影响也非常不同:


•Opus 4.7更新后,没有搭建自己脚手架的用户会感受到AI能力有飞跃,因为模型本身已经把很多long running task的能力训进去了,可以自发地跑很长时间。


•但基于Opus 4.6精心定制过脚手架的用户,反而会觉得效果变差。具体表现为,token消耗量明显增大、频繁触发context压缩、会更积极地要求开新session而不是在当前session里复用,甚至在设置了YOLO模式后仍然会无视指令。


这背后的原因大概是:Opus 4.7在RL训练中是以team coordination的模式来做long horizon task的,所以在使用过程中,最适配的方式也是把主agent设计成team coordinator,用agent-to-agent的方式去跑,而不是直接让主agent去自主完成长程任务。


18、也有AI开发者提到,从GPT-5.2开始,OpenAI和Anthropic在模型的开发能力上已经没有太大差别,差距更多来自Codex和Claude Code之间harness的差距,而这个harness的差距在Q1也已经逐渐追平。他在春节后选择全面切到Codex,因为整体体验更稳定,在速度、开发能力、供应量、稳定性,以及账号风险等方面都更好。


19、上面这些case都这暴露出一个趋势:模型和harness的耦合关系在变得越来越紧。新模型不是一个抽象的、更强的“通用大脑”,而是带着某种非常具体的使用范式一起发布。它的训练方式、system prompt、RL数据分布,都会暗含“应该怎么使用它”。如果外部开发者没有按这个具体方法使用,效果可能会大打折扣。


20、这个趋势对于harness领域的创业公司来说是一个危险的信号:因为如果你的harness是根据上一代模型的能力和缺陷设计出来的,一旦下一代模型把这些能力训进去了,你的harness会瞬间变成technical debt。除非harness本身更像一个可以随模型自动生成、自动编译、自动适配的系统,否则每次模型升级都会带来一次重构。


21、模型吞噬harness的趋势同样对Skills领域带来影响。当下的讨论中提到的Skills AppSotre、Marketplace本质上还是把Skills默认为插件、模板的存在,但Skills的商业化更像一个短期窗口,而不是一个长期平台型机会。


22、今天的Skills可以分为2类:


•类型1:Capability uplift(能力提升),也就是让模型学会原本不会的事情,它的保鲜期大约只有三个月,因为有价值的部分一定会成为模型的养料,会在下一个版本被训进模型;


•类型2:Encoded preference(偏好编码),也就是把个人偏好喂给模型,补充的是具体用户的个性化偏好,那它也会因为高度个性化而分发价值有限。


23、Coding/Agentic场景下是否已经建立起数据飞轮?


•掌握用户数据一定是重要的,但用户数据并不能直接拿来训练模型,因为这些原始数据的清洗成本极高;


•数据飞轮更多体现在产品层面:当一个产品拥有全世界最多的程序员在你的平台上编程,你就能从统计意义上理解这几百万核心开发者的preference到底是什么,比如他们的编程习惯是怎样的、什么环节会介入。这种理解会持续反哺产品迭代,让产品越来越贴合真实用户的工作流。


•但这是不是一个足够深的壁垒,目前还不好说。它取决于程序员的行为模式到底有多碎片、多复杂,需要多大的样本量才能充分捕捉,以及这些数据和具体产品的harness环境绑定有多深等等。


Insight03


模型越快迭代,算力瓶颈越大


24、过去两三年大家反复讨论Scaling Law能不能继续,最终总是落到数据够不够的问题上,但现在往后看一到两代模型,数据不是卡点,算力才是。尤其当头部模型公司已经进入了AI加速AI研发的自循环,这意味着模型迭代速度会越来越快,算力也会越来越紧俏。


25、最新的Mythos超大参数模型发布后,最大的限制就是需要极大的集群才能serve起来,可能需要NVIDIA GB200/GB300 NVL72或者Google TPU7x/Ironwood这种级别的硬件。


26、国产模型要缩小和海外顶尖模型的差距,核心可能是三点:


(1)能组织起10万卡以上的高性能、稳定训练集群。这不仅要考验GPU数量,更考验GPU之间的连接能力,两者都有待补齐。


(2)自主建立起类CUDA的软件栈,不能永远被英伟达生态卡住。


(3)有更好的数据生成能力,比如synthetic data,以及像Claude Code一样通过更好的产品掌握用户在真实任务里执行、试错、纠错的轨迹数据,了解真实的数据分布情况。


27、短期来看,算力是远比数据更大的挑战。中国开源模型在过去一年给了市场一种“追得很快”的感觉,但接下来有可能会阶段性地卡一下。因为国内模型现在在模型大小上和海外御三家还有不小的差距,要跳到下一个level,可能至少需要四、五万张卡以上的集群支撑。


28、不过在更长的时间尺度上,中国在芯片方面的追赶速度可能被低估了,只是短期内(比如2028年之前)压力仍然很大:


•随着美国几家AI大厂开始自研芯片,客观上会增加市场上懂芯片设计的人才供给,其中一部分know-how可能会流回中国。


•Coding Agent能力的提升也让手搓优化kernel、从一个架构迁移到另一个架构的难度在下降。以前这个过程预计需要5到10年追赶,但今天在AI的辅助下可能会被加速。


Insight03


Token涨价是确定趋势


29、Token涨价会是一个确定性事件,中美两个市场同步进入涨价周期,尤其国内从“价格战”模式逐渐切换到“性能定价”模式:


•OpenAI的GPT-5.5相较于GPT-5.4 token价格翻倍;


•智谱的GLM 5.1相比于GLM 4.7,也在三个月左右token定价翻倍;


•Kimi的K2.6相较于K2.5 token定价大概涨了50%。



30、涨价首先是由供需关系驱动:当前对token(AI智能)的需求是非线性增长,但供给只能线性扩张。未来两年token需求可能涨1000倍,数据中心也就扩几倍,供需缺口越来越大。


•成本端:今年算力成本至少上涨了20%:


(1)GPU极度稀缺,包括Anthropic的几乎每家AI厂商都要面临缺卡难题;


(2)集群的运维成本也在涨;


(3)模型变大、上下文变长,尤其是百万上下文对推理成本的影响非常显著,生成单个token所需的计算量和显存需求都大幅增加;


•需求端:Opus 4.5之后,模型智能在复杂场景和任务上的表现提升,Agentic和coding场景开始创造真实ROI,以前不可想象的用例正在批量出现,且每个场景都极度消耗token。只要企业发现模型能带来正向经济价值,就会愿意为更强模型支付更高token价格。


随着模型能力提升,更多新的高token消耗用例还在不断被解锁。例如SemiAnalysis最新播客访谈中提到,他们利用AI可以通过一张照片让模型反向拆解芯片里用了什么金属、对应什么设计,再进一步推理出一个投资判断。


31、DeepSeek最早把国产开源模型的API定价打到了极低水平,这对国内模型厂商、推理厂商来说不太健康。因为中国模型并不天然拥有低一个数量级的成本优势,后面可能会有一次“价格修复”。


32、考虑到DeepSeek过去并没有大规模对外提供商业化API,所以过去的定价并不具备参考性。但接下来它自己也必须考虑商业可持续性。


33、Anthropic和OpenAI可能明年一家的ARR就可以到达2000-3000亿美金,假设模型训练成本300亿美金,推理端毛利率60%(Anthropic目前的API毛利率据说已经有70%+),那么头部模型一年的净利润可以达到近千亿美金,这已经超过Meta的利润水平。如果未来训练算力的投入占比持续下降,头部模型的利润率会非常可观。


但这么高的利润率能不能守得住,才是真正的问题。回顾历史,任何行业出现这种margin都会吸引激烈的竞争。两年前Google DeepMind说过一句话:"We don't have a defending moat,neither does OpenAI",这句话到今天似乎仍然成立。


34、关于需求侧的渗透率,目前agent类产品的渗透率可能只有5%左右,仍然很低。一个粗略估计是,Codex周活用户约400w,Claude Code可能约1000w;加上其他agent产品,总用户可能在2000-3000w。相对全球4亿左右的高级知识工作者,这个渗透率大概也就是5%,远远没有到天花板。


35、AI时代的商业逻辑和互联网时代有一个根本不同:互联网时代单客的客单价是相对固定的,但AI时代一个人的客单价几乎没有上限,一个深度用户可以每天消耗上亿token。Claude Code现在头部10%用户大约贡献了80%-90%的营收,power law非常明显,这意味着渗透率和使用深度是两个独立的增长维度,后者相比前者,可能反而有更大的释放空间。


Insight04


用好AI的bottleneck在于人本身


36、今年Q1,模型能力已经跨越了拐点,接下来的核心竞争战场不再是模型智能本身,而是上下文和外部能力的对接。对企业来说是整个经营体系在数字世界里的完整映射,对个人用户来说就是自己的上下文管理。


37、有一位二级朋友分享了自己实际用AI辅助投研的完整流程,她从大约一万多家标的出发,搭建了一个多维度、多轮筛选的agent工作流。


•第一层是用结构化数据筛选公司的财务健康度:先从Wind、Bloomberg等数据源里拉取数据,整体大概有300多个维度,把1万多家公司按财务质量、估值、成长性、波动、盈利能力、资本结构先筛一遍,剔除基本面不健康的标的。


•第二层是利用非结构化数据做趋势判断:比如可以通过YouTube API实时抓取行业关键人物的公开发言,黄仁勋、Dario等说了什么,同时整合Stratechery、SemiAnalysis等深度分析源的内容,形成一些对行业、公司的认知判断。


•第三层是用聪明钱做验证和估值分类:参考特定机构、特定投资人的持仓或方向,结合估值模型做最终筛选。


整个过程花了2-3天,人全程参与,从1万多家公司,筛到1000家、100家,最后锁定个位数标的,目前选股胜率是100%。


38、在投研场景里,不需要SOTA模型,真正决定效果的,往往是数据域:


•数据solid程度如何(这里可以设计多种维度互相校验);


•数据实时性如何(比如是否能通过Yahoo、Youtube等各类数据源的API实时捕捉最新的趋势变化),


这两点最大程度上决定了这个agent的上限。换句话说,模型只是发动机,数据域和workflow才是投研agent的护城河。


39、人的判断没有消失,但人的杠杆被放大了很多。AI在投研里最强的价值是“宽搜索”。AI可以在两三天内扫完1万家公司的所有数据维度,但人类最强的价值依然是“深度思考”。人类的直觉、对异常信号的感知、对单点问题的判断,仍然非常关键。


40、中国企业的数字化基础普遍很差,包括大互联网公司也是如此,即便数字化做得不错的企业,组织权限的割裂也会严重限制AI的效果。一个很现实的例子是,做系统对接时,最高效的方式是把两个系统的源码都拉到一起,让AI通读两边逻辑。但现在,不同系统的代码权限分属不同的员工,根本不允许拉通。所以,用好AI的bottleneck越来越不是模型本身,而是人和组织。谁能把上下文和权限打通得更彻底,谁的组织转速就会更快。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP