腾讯AI科学家姚顺雨主导的混元3预览版(Hy3 Preview)以MoE架构快速上线,标志着腾讯AI战略从"刷榜"转向场景化落地,通过产品协同设计(Co-design)和稳健扩规模实现差异化竞争。 --- ## 1. 腾讯AI的重建与战略转向 - 姚顺雨接手腾讯AI后重组团队,撤销AI Lab并入大语言模型部,聚焦混元单一主线,解决此前模型定位模糊、业务线不协同的问题。 - Hy3 Preview作为"重建第一步",采用295B总参数/21B激活参数的MoE架构,三个月完成训练到上线,强调快速验证而非刷榜。 - 核心转向:从"高中生背题应考"(马化腾语)转为产品嵌入能力,避免重蹈"业务线绕开自研模型"的覆辙。 ## 2. 技术架构的差异化押注 - **稀疏化成本控制**:选择MoE路线降低推理成本(密集模型成本的1/10),适配微信/元宝等海量调用场景,与DeepSeek V4(2.3%激活率)殊途同归。 - **快慢思考融合**:模型自主判断推理路径(类似ReAct框架),区别于DeepSeek V3/R1的API分端设计,更契合C端用户"无感知交互"需求。 - **评估体系革新**:自建CL-bench等场景化评测集,放弃传统独立题目打分,强调长记忆、多轮对话等"累积上下文"能力。 ## 3. Co-design与腾讯的生态牌 - 模型与微信、元宝、企业微信等产品同步设计,通过业务反馈倒逼迭代,如元宝接入Hy3后替代第三方模型(DeepSeek R1)。 - 押注"分发入口+深度定制"组合:百度搜索入口未转化为AI优势的教训下,腾讯强调"嵌入业务独有的价值创造"。 - 当前局限:Hy3 Preview仅为练兵版,295B参数未达极限,正式版需验证MoE扩展性及模型级闭环(自动消化反馈改进)。 ## 4. 未来挑战与关键验证点 - **组织文化风险**:Co-design需打破腾讯业务线独立传统,长期协同依赖混元3正式版的实际表现说服业务部门。 - **技术临界点**:快慢思考融合架构在更大规模(如混元3主力版本)的效率保持,以及真实场景Agent能力的稳定性。 - 行业窗口期:参数边际收益递减背景下,腾讯押注"下半场场景战"的时机判断是否准确,将决定其能否弯道超车。
姚顺雨的Bet
2026-04-25 10:13

姚顺雨的Bet

本文来自微信公众号:洒家君泽,作者:君泽,头图来自:AI生成


“We are just getting started.”


Hy3 preview 发布当天,姚顺雨在 X 上说,当下的目标是做超越公开榜单的、全面能力的实用模型,而做到这件事的唯一方法是和多种产品共同设计(co-design),同时稳健地扩规模(scaling solidly)


这位起跑刚三个月的腾讯 AI 主将,将 4 月 23 号发布的混元 3(Hy3)preview 版作为一个初试之作。


此前,外界对这款模型的高预期来自两个方面。


年初,马化腾和刘炽平都承认腾讯在 AI 领域慢了,刘炽平甚至直言不讳,说以前腾讯的模型是高中生背题应考,成绩单好看,但真上考场就完蛋。反思的同时,腾讯已经在酝酿改变,外界也格外期待腾讯的自研大模型接下来怎么走。


另一个期待来自姚顺雨本人。


姚顺雨顶着从姚班到硅谷的系列光环,去年 9 月离开 OpenAI 加入腾讯,12 月正式出任首席 AI 科学家,成为腾讯 AI 真正的领路人。在近些年的 AI 发展历程上,人才密度往往决定 AI 的战局。


第一个作品正是 Hy3 Preview,1 月底启动训练,4 月发布上线,从训练到开源不到三个月——即便在加速内卷的大模型领域,这个速度依然很快。


MoE 架构,295B 总参数,21B 激活参数,最大支持 256K 上下文长度,快慢思考融合。Hy3 preview 已在元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等多个主线产品首发上线。


Hy3 preview 的参数规模并没有冲到头,传统跑分上没有全面刷榜,而它强调的能力——真多轮对话、长记忆、工具调用、Agent——也不在大家熟悉的“炸裂”或“变天”的话语体系里。


姚顺雨自己也没把它看做一个集大成的作品,他说这是“重建的开始”,而非外界期待的终点。


一、重建的第一步


确实,姚顺雨加入腾讯的时候,腾讯的 AI 建设在国内乃至全球一线大厂梯队中情况并不乐观。


腾讯 2023 年就开始做混元,但内部定位并不清晰。初期内部给到的关注相对有限,也不是各业务线的默认选项,甚至在自家业务上,混元都坐不上主桌,一些腾讯的核心业务甚至绕开混元,自己找方案。


2025 年 2 月,元宝接入 DeepSeek R1,用户量爆发式增长,一度登上 App Store 免费榜第二。对于腾讯的产品,这当然是好事,但从另一个角度看,腾讯内部可能也敲响了警钟——自己的模型不够用,用户会直接找别人的模型。


借别人的能力可以过一阵,但微信、企业服务、游戏 AI、广告智能投放这些核心场景需要深度定制、可控可调的能力,通用 API 解决不了。


混元必须自己站起来,但问题是怎么站。这是姚顺雨需要解决的问题。


姚顺雨个性张扬,从不掩饰自己的野心。从 Open AI 加入腾讯之后,姚的目标无疑是做出国内乃至全球最顶尖的模型。


但要实现野心,他要解的首先不是算法题或者工程题,而是组织题。


有熟悉姚顺雨的人说,过去腾讯在混元上的经验,对姚顺雨而言局面是“又破又立”——团队亟需重组,基建需要重建,组织需要重新梳理,更重要是要明确腾讯做大模型的核心原则。



纠正错误动作,有时候比从头学习新动作还要难上许多,因为错误动作已经成了肌肉记忆了。


接下来的几个月,他做了一连串调整。重构组织,从业界吸引人才、重建数据和基建……这几乎是重建腾讯 AI 的链路。


在 2026 年 3 月 20 日,成立十年的腾讯 AI Lab 正式撤销,核心研发人员全部并入大语言模型部,统一向姚顺雨汇报。所有 AI 研究力量收拢,聚焦混元单一主线,姚顺雨终于成了腾讯 AI 真正的核心。


新组建的团队里,很多核心研究员是 2025 年底才陆续到位的。


对一个新团队的第一个公开版本来说,合理目标不是 SOTA,是把链路跑通,把几个关键能力做出来。


Hy3 preview 的定位正是如此。它显然承载不了姚顺雨全部野心,而只是通往他野心的第一步。


不过,这个用来练兵探路的产品,很多方面也很姚顺雨,体现了他的判断,或者说 Bet。


AI 行业的人喜欢说“Bet”,押注。押注一个判断,押注一条工程路线。当初,Google 押注了 Transformer 的左边,OpenAI 押注右边——最终有了如今的 AI 局面。


现在每家头部公司都在下不同的赌注——字节押豆包入口,阿里押千问的 API 和 C 端双轨,DeepSeek 押技术极限。


腾讯呢?腾讯押的是什么?


二、做什么,不做什么


要回答腾讯押的是什么,先看 Hy3 preview 具体做了什么取舍。


如前所说,在规模上,腾讯选了平衡。Hy3 preview 是 295B 总参数,21B 激活参数——放在头部 MoE 里属于中等偏下。但相比此前的 Hy2,本次的预览版已经实现了三个月内的巨大的跨越:近乎重构模型的底座。


这种选择背后大概有几层考虑。一层是新团队第一次跑完整流程,不会直接上极端参数,这应该是 Hy3 正式版会做的事情;一层是大模型时代的 Scaling 在拉平,多花十倍成本换来 5% 的领先,用户感受不到。


Hy3 Preview 选择的 MoE 路线,是目前大模型的主流选择。腾讯的 AI 不仅是独立产品,更是嵌在分发场景里,而分发入口(微信、元宝、企业微信)每天产生的调用量是天文数字。


如果用密集的几百亿参数模型,单次推理成本是 MoE 的十几倍,这个差距乘以日调用量,是任何业务模型都算不过来的账。


这不仅是腾讯的选择,也是行业的共识。刚刚发布的 DeepSeek V4,也是稀疏 MoE,激活率 2.3%。这当然是个比 HY3 Preview 规模大得多的模型,但在稀疏方面,甚至要更加激进。



在架构上,腾讯选了融合。


Hy3 preview 把快慢思考做成一个端点,模型内部根据输入的复杂度自己判断走哪条路径。


DeepSeek 之前把快慢思考做成两个端点——V3 一个,R1 一个,开发者调用时自己选。两种做法对应两种不同的用户假设。DeepSeek 假设用户知道自己要什么——一个调用 API 的开发者,他清楚这次请求复杂还是简单。


Hy3 preview 假设用户不用知道。一个在元宝里问“周末带孩子去哪玩”的人,他不会先想“这个问题需要快回答还是慢回答”再发出来。


在这个场景里,融合架构几乎是唯一的合理选择。


这个选择也很姚顺雨。他 2022 年提出过一个框架叫 ReAct——让模型在“推理”和“行动”之间自己决定切换的时机。后来的 Tree of Thoughts、SWE-agent 都是沿着这条路往前走。


让模型自主决定下一步做什么,是 Agent 作为一种产品形态成立的前提。Hy3 preview 的快慢融合是这条线索在推理路径上的具体实现。模型不只决定“做什么”,也决定“怎么做”。


在评估和能力上,腾讯选了场景化。


在复杂推理上,Hy3 preview 并不弱。它在清华大学求真书院数学博士资格考试(26 春)取得国内最高分,在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务上表现突出。


能力本身是有的,但显然,混元这次不把重心放在容易被刷的公开榜单上,而是通过自建题目、真实任务和产品众测来评估“真实战斗力”——腾讯为此新建了 CL-bench、CL-bench-Life 等内部评测集来评估上下文学习能力。


可以说这是腾讯的扬长避短,但这个选择背后,也是评估方式本身在变。


学术评测有一个基本假设——每道题独立打分,最后平均得分。这个假设在数学题、代码题上是合理的,但在真实工作里事情不是这样发生的。


一个工程师在同一个代码库里干活,第十个 bug 一定比第一个解得快——前面的工作改变了他解决后面问题的方式。但现在的 Agent 评测里,模型解决了 99 个任务并不会让它在第 100 个任务上更熟练,因为每个任务都是从头开始。


姚顺雨在《The Second Half》里指出过,学术评测的独立假设在真实 Agent 场景里不成立。Hy3 preview 强调的真多轮、长记忆、Context learning——本质上都要求“上下文是累积的”。


DeepSeek 在 V4 上也给了类似的信号——它主打 SWE-bench Verified 这种真实编程任务的成绩,而不是传统的学术知识测试。两家都在把评估尺度从“考试题”往“真实工作”上挪。


三、距离野心实现还有多远


姚顺雨在推特上说到了做出新一代大模型的方法:和多种产品共同设计(co-design),同时稳健地扩规模(scaling solidly)


后者容易理解,扩规模也是每个模型厂都在做的事情,那么 Co-design 是什么?


简单来说,就是不要孤立造轮子,也不是训练出模型之后,再去做产品和业务适配,而是模型和产品从设计阶段就同步推进,让产品反馈来倒逼模型迭代。


这背后是腾讯的优势——分发入口。


想象一下 2026 年的腾讯用户可能怎么接触到混元。你在微信里收到一条消息,下面可能有个按钮帮你总结;你打开元宝问一个问题,答案来自 Hy3;你在企业微信里让 AI 帮你订会议室、写周报。


当然,分发入口未必是必胜牌,像百度也有最大的搜索入口,可文心一言并没有把入口转化成 AI 时代的优势。分发优势要真的变成胜势,需要模型本身能做出“嵌入业务之后才有的价值”。



腾讯押的就是这个假设,而且 2026 年的 AI 行业恰好给了这种押注一些空间。


参数规模的边际收益在递减,技术差异化越来越难,几家国产模型用的是同一套配方。上半场靠更大的参数、更多的榜单;下半场关心的是场景,是嵌入。腾讯押的恰好是下半场的牌。


Hy3 preview 完成了它作为练兵版本的使命——把方法论跑通了,把新组织验证了,把同向印证的信号也拿到了,更重要的是为后续更多的版本打下了第一块基石。


但这只是第一步,真正要让野心成立,还有几件事必须在接下来的版本上兑现。


preview 是 295B 的练兵版。真正的主力版本——混元 3——将在更大的参数量级上证明方法论依然成立。


有些问题只能等主力版本来回答,比如稀疏 MoE 的 Co-design 能不能扩展、快慢融合能不能在更大规模上保持效率、场景化评估能不能应对更多业务的复杂度。姚顺雨自己说的 “scaling solidly” 就是在这一层上兑现的。


这里有一个最关键的跨越——从产品级闭环到模型级闭环。


过去互联网时代的数据闭环是产品闭环,用户反馈改进产品、产品改进再反馈,这件事腾讯做了十几年,轻车熟路。AI 时代的数据闭环是模型闭环——要求模型本身能消化反馈、改进自己。



这是一个开放的研究问题,没有任何公司证明已经完全跑通。preview 在 Co-design 上拿到了产品级的初步反馈,主力版本能不能跨越到模型级的闭环,是整个野心能不能成立的最关键技术验证。


腾讯的组织能力也会继续经受考验。


姚顺雨的手术做完了——三个部门独立建制、AI Lab 并入、基建重建。但一次性的重建不是组织能力,是组织事件。迭代节奏能不能持续?业务线和模型线能不能长期协同?Co-design 能不能在腾讯的业务复杂度里真正扎下根?这些都要靠时间验证。


组织这一层最大的风险不在技术,在文化。Co-design 需要模型团队和业务团队深度磨合,腾讯有名的是业务线的独立性——业务线能不能长期耐心接受和模型团队同步推进,是一个开放的问题。


刘炽平说 AI 投入至少翻倍,这体现了决心;但决心在一年后、两年后还在不在,取决于混元 3 及后续版本能不能拿出让业务线信服的东西。


按照目前的节奏,在 Hy3 正式版上,我们会看到规模会继续扩大,姚顺雨的方法论会在更大参数量级上接受验证,也会与其他顶尖大模型正面较量也会正面展开。


到那一天,恐怕才是检验今天这套模型、产品以及组织方法论更大的有效性的时刻,姚顺雨和混元团队将继续冲刺。


本文来自微信公众号:洒家君泽,作者:君泽

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定