本文来自微信公众号:新皮层NewNewThing,作者:王杰夫,制图:景毅,编辑:吴洋洋,题图来自:视觉中国(Google DeepMind首席执行官哈萨比斯)
Key Points
过去1年,Gemini在全球通用AI流量中的市场份额从5.7%增长到了21.5%,成为ChatGPT问世以来第一个市场份额超过20%的通用AI应用;
2023年,Google把模型层两个团队合二为一,由DeepMind的哈萨比斯统一管理。2024年,Gemini应用团队也并了进来;
哈萨比斯在模型层豪赌“原生多模态”,字节跳动和阿里巴巴春节期间发布的Seed 2.0和Qwen3.5分别是其首个原生多模态模型;
模型的进步固然重要,但真正带领Google走出泥沼的是一系列最大程度展现其模型性能的产品策略;
研发AI产品与构建AGI之间,90%的工作是相同的。Google目标是模型迭代以周为单位响应用户反馈。
2025年年初,市场贴在Google身上的标签还是“掉队”“AI黄埔军校”之类的揶揄之词,但到了年底,市场的态度就180度逆转,看待Google的眼光就像观看好莱坞经典故事里涅槃归来的英雄。
Google的市值因此经历了一个V形反转,从年初的2.31万亿美元一路跨过3万亿大关,达到3.78万亿美 元。
投资人的热情并不基于虚幻,Google的确在过去1年中接连打了多个层面的胜仗:
2月19日,Google发布了新一代旗舰模型Gemini 3.1 Pro,在全球知名AI基准测试机构Artificial Analysis的榜单中以57分位居综合智能指数榜首,超过第二名OpenAI的54分和第三名Anthropic的53分——这是大模型竞争开启三年来,Google第一次在该榜单上登顶。
与模型能力同步增长的还有用户规模。根据SimilarWeb今年1月公布的数据,2025年1月至2026年1月,Gemini在全球通用AI流量中的市场份额从5.7%增长到了21.5%,成为OpenAI的ChatGPT问世以来第一个市场份额超过20%的通用AI应用。而与此同时,ChatGPT的市场份额则从86.7%下降到64.5%。

至于市场最关心的搜索业务,在2025年最后一个季度中,Google搜索业务收入同比增长了17%,增速高于上一季度的14%。市场此前曾普遍担忧Google的搜索业务会受到ChatGPT等对话类产品的冲击,但Google用数字证明,结合了AI能力的Google搜索更受用户欢迎。Google官方数据显示,在AI模式下,用户的搜索查询时间平均长度是传统关键词搜索的3倍,表明用户正在以更复杂的对话方式与搜索引擎交互。
然而就在一年之前,Google还是个站在悬崖边上的公司。
2022年11月底,OpenAI发布划时代的AI应用ChatGPT,3个月后,2023年2月,Google公开了对标ChatGPT的产品Bard,也就是Gemini的前身。但初次演示很快就演变成了一场灾难。在官方发布的宣传材料中,Bard错误地声称詹姆斯·韦伯空间望远镜拍摄了第一张系外行星照片,而事实上这一成就属于位于智利的欧洲南方天文台甚大望远镜。这一事实性错误引发了市场剧烈波动,Google股价随后下跌7%,市值蒸发约1000亿美元。
而这其实已经是Google倾尽全公司之力的结果。于是华尔街开始质疑,这家曾经的硅谷科技明星,是否已经太老、太慢了,老到它可能连大本营——搜索业务——都不一定保得住。这种看衰声音从2023年一直持续到了2025年年初。在此期间,大模型技术奠基之作《Attention is all you need》的8位作者也几乎全部离开了Google。

所有的不利条件都让这个巨头在2025年的翻身看起来像是个意外,但实际上这场翻身仗是个长达3年的豪赌和不断整合的结果。在这个过程中,Google犯过急功近利的错,也回归“常识”重建基座模型,不过真正带领Google走出泥沼的不是模型本身,而是一系列有效的产品策略,以及将产品与模型深度垂直整合。
100天的“本田思域”保卫战
作为一个体量庞大的公司,Google最初的反应足够迅速,不过这种反应一开始并不理性。
2022年12月中旬,就在ChatGPT上线两周后,Google CEO桑达尔·皮查伊宣布“红色警报”,意味着公司切换至“战时”节奏。他紧急请回了早已淡出日常管理多年的公司创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)。两位创始人参与主持了多场高规格战略会议,布林甚至在12月便开始亲自编写和提交代码。
一次内部会议上,Google定下了一个核心决策:必须在100天内推出一款对标ChatGPT的产品——Bard。
这项重任落到了萧令怡(Sissie Hsiao)手中。她2006年加入Google,曾在搜索、文档、广告等多个部门工作过。当时,她是Google Assistant(Google助手)业务的负责人,这是一款于2016年推出的AI语音助手类产品,最初目标是对抗苹果的Siri。
与100天计划几乎同步到来的,还有大裁员。2023年1月的一个周五凌晨,Google开启了公司历史上规模最大的裁员,1.2万名员工通过一封系统邮件得知自己失去了工作。皮查伊在邮件中称,此次裁员是为了将公司资源集中在AI上。但每个人都清楚,这不仅是财务上的降本增效,更是组织层面的告别温情:裁员带来的生存压力像一根无形的鞭子,驱使留下的员工必须在AI战场上证明价 值。
原本崇尚工作生活平衡、习惯于长周期研发的Google员工开始在高压下工作。Bard团队的会议经常延续到深夜,核心开发者们为了跟上进度,选择住在公司附近的酒店或办公室。对于这些习惯了在睡前陪伴孩子的硅谷精英来说,打乱作息参加深夜会议成了不得不接受的代价。
然而努力不保障成果。Bard团队长期困扰于其自研模型的“幻觉”问题,哪怕问题只有小学生难度,模型仍然常常给出意料之外的答案。
为了降低错误率,萧令怡选择沿用传统的软件研发模式,即通过循环测试与修复来消除错误。她组建了一支人数众多的测试团队,这些人负责对模型提出各种试探性问题,寻找逻辑漏洞。此外,CEO皮查伊也通过邮件动员每一个Google员工积极试用产品,据说前后约8万名员工参与过内测。
这种依靠人力堆砌的测试方式原始且低效,远远无法跟得上外界的竞争。ChatGPT发布仅两个月后,月活跃用户数突破1亿,成为史上增长最快的消费者应用程序。资本市场对这种颠覆性的增长反应剧烈,投资者不断施压,要求Google立即拿出对标产品,以证明其搜索帝国的护城河依然稳固。
2023年3月中旬,OpenAI发布了GPT-4,其在逻辑分析和编程任务上的表现远超Google的LaMDA模型,进一步拉大了技术差距。一周后,即“百天计划”的截止日,Bard在美国和英国正式上线。然后,那个错误地声称“詹姆斯·韦伯空间望远镜拍摄了第一张系外行星照片”的错误就直接在Google官方发布的宣传材料中出现了。
皮查伊当年4月初接受《纽约时报》播客《Hard Fork》采访时承认,初代Bard只是一个基于“轻量级LaMDA”的初级版本,并将其比作一辆“改装过的本田思域”在与功率更强的赛车竞争。本田思域是一种家用的日常代步车,完全不具备性能跑车的能力。皮查伊预告,Bard背后的模型将很快升级为更具威力的PaLM模型。这一表态也标志着,Google的战略重心终于开始从应用端的仓促应对,真正转向核心底层模型的研发竞赛。
哈萨比斯豪赌多模态
“百天计划”是个急功近利的战斗,从这种短期焦虑中醒来后,Google先在模型层进行了组织重构。
2023年4月,皮查伊宣布合并成立Google DeepMind,将Google体系内原本带有赛马意味的两个AI团队——位于硅谷总部的Google Brain和位于伦敦的DeepMind——合二为一。DeepMind CEO戴米斯·哈萨比斯(Demis Hassabis)成为合并后的新部门的负责人,而Google Brain负责人杰夫·迪恩(Jeff Dean)则担任新团队的首席科学家。
哈萨比斯上任后的第一个动作,就是砍掉冗余的内部竞争,将所有顶级人才和算力资源全部押在一个代号为“Gemini”的巨型项目上。他在接手后明确了Gemini的研发路径:它不再是对现有模型的修补,而是一个从底层设计开始就对标并超越GPT-4的“原生多模态”模型。
2022年至2023年间,大模型研发存在明显的路线之争。占据主流的一派主张“单模态优先”,即文本优先。这一派认为语言是人类知识的主要载体,训练数据规模最大且计算成本更可控,只需通过缩放法则(Scaling Law)将文本能力推向极致即可。OpenAI在GPT-3以及GPT-4的研发初期,都表现出明显的文本导向,将视觉等模态视为后续的插件或补充。
哈萨比斯提出的“原生多模态”并不是当时业界主流。这一派的哲学认为,如果目标是实现通用人工智能(AGI),单模态模型天生就受限,因为人类认知本质上是多模态的,视觉和听觉是理解世界的核心,单一的文本模态模型难以实现真正的具身认知,即无法将语言符号与现实世界的物理属性真正挂钩。但采用这一技术路线的不确定性也更高——它面临更高的计算复杂度和数据噪声。
哈萨比斯的技术偏好直接决定了Gemini的底层架构:它从第一天起就不是一个“先训练文本再外接视觉插件”的模型,而是一个将文本、图像、音频和视频等多模态数据同时用于预训练的原生多模态架 构。
2023年12月,Google发布初代Gemini 1.0,成为行业内首个明确提出“原生多模态”概念的大模型。并且,Google刻意在发布会上展示了Gemini一些连GPT-4都没有的能力:它能够通过摄像头边观察边与人互动。比如,当演示者拿起画笔在纸上手绘一个小鸭,Gemini就会边看边描绘它看到的整个过程:“我看到你把一张纸放到了桌上”“我看到你画了一条波浪线”“第二条线很平衡”……当一只脚开始在波浪线下出现时,Gemini紧接着说:“它看起来像一只鸟”,演示者继续画出一条像水纹一样的波浪线,Gemini马上反应过来,“这只鸟在游泳,它有长脖子……它是一种鸭子”。
5个月后,OpenAI跟进了。2024年5月,OpenAI发布GPT-4o,其中的“o”代表“Omni”(全能)。该模型同样实现了单一模型端到端处理文本、图像和语音的输入输出。这意味着Google和OpenAI在技术路线上最终会合,竞争重心也随之从能否实现多模态转向如何应用多模态。
NotebookLM的成功可以复制
模型的进步固然重要,但真正带领Google走出泥沼的是创造最大程度展现模型性能的产品。
2024年5月的Google I/O,公众和媒体的焦点集中在两项发布上:其一是名为Project Astra的视觉助理原型,它能够通过手机摄像头实时识别和分析物理世界。布林在现场向记者演示了该功能,展示了Google对未来硬件交互的构想。其二是生成式AI搜索的全面升级,当你搜索一些特定问题时,新功能会将网页内容总结后把答案直接呈现给用户,而不是像先前那样把一堆链接丢给用户,这一举动旨在回应资本市场对搜索业务被颠覆的担忧。
然而,最终在AI圈取得突破的产品既不是Astra——受限于延迟和硬件普及,过于超前;也不是AI搜索——维护旧有的叙事显得过于陈旧,而是原本处于发布阵容边缘的NotebookLM。

2024年2月发布的Gemini 1.5系列模型开始支持百万token上下文,NotebookLM 2024年10月正式上线时,主打功能之一就是能同时处理50多个上传文档。
这是一款个性化AI协作工具。与通用的聊天机器人不同,NotebookLM允许用户上传PDF、文本文件和网页链接,构建一个私有的知识库。其核心功能是后来被市场定义为AI播客的“音频概览”,即通过两个AI角色的对话,将复杂的枯燥文档转化为播客形式的语音讨论。
2024年下半年,NotebookLM在社交平台和学术圈迅速走红。由于其生成的对话极其接近真人语气,包含口头禅和情绪起伏,该产品在发布后的几个月内吸引了数百万活跃用户。市场上随后出现了大量模仿其“文档转播客”模式的竞品。
而这款产品的诞生源自Google Labs内部一个仅有数人的核心小组。推手雷扎·马丁(Raiza Martin)确立了“源头锚定”哲学,尝试从底层杜绝AI幻觉;设计师杰森·斯皮尔曼(Jason Spielman)操刀了直观的三栏式界面;而工程师斯蒂芬·休斯(Stephen Hughes)则实现了精准的私有文档检索。
此外,在研发过程中,Google Labs副总裁,同时也是该项目总负责人的乔什·伍德沃德(Josh Woodward)还采取了一种特殊的跨界协作方式。他特意邀请了著名科技作家斯蒂文·约翰逊(Steven Johnson)以访问学者身份加入团队。约翰逊本身就是一位有着20多年笔记习惯的重度写作者,他在团队中推动了许多模拟人类创作流程的功能,比如自动摘要、引文溯源等等。他还参与了音频概论功能中拟人化声音的设计,包括加入“嗯、啊”等不完美的停顿,使其听起来更像人类的自然对话。
在NotebookLM的开发过程中,乔什·伍德沃德提炼出了一套独特的AI产品哲学,这使得Google Labs的运作方式更像是一家敏捷的初创公司,而非官僚森严的巨头部门。
这套哲学的核心在于降低沟通成本。大多数Labs项目起始于仅有5到7人的小组,通常由产品经理、工程师和设计师组成。这种极简的架构赋予了团队极高的所有权感,成员拥有跳过繁琐审批、直接进行产品转向的自主权。在这种氛围下,长期规划被彻底打破,团队追求的是从创意到交付的最短路径。
伍德沃德推行的是反馈驱动而非计划驱动的逻辑:团队不会在项目开始时就大规模扩员,而是在产品表现出明显的爆款潜力后,才根据实时反馈快速补齐移动端或工程团队。这种模式确保了最优质的资源始终流向最有市场生命力的项目。
在验证成功方面,Labs团队不依赖大公司通用的庞大数据仪表盘,而是聚焦于小众用户验证。对于他们而言,获得最初10000名活跃用户就是一个值得庆祝的里程碑。伍德沃德认为,这比任何宏大的指标都更能代表产品确实解决了真实的痛点。
事实上,伍德沃德推崇的这种“小、快、灵”的开发模式之所以在AI时代大放异彩,是因为AI产品的研发逻辑已经彻底改变,产品开发已经从确定性工程转向了概率性实验。传统软件开发追求逻辑的严密与功能的堆砌,但AI产品本质上是模型能力的溢出,开发AI产品其实是在为这些溢出的能力寻找用户需求。
就比如NotebookLM的热门功能是将文字、图片、视频等等不同内容重新组合后输出成为音频内容,这其实为Gemini的原生多模态能力寻找到了一个恰到好处的出口。
垂直整合
将模型层的Google Brain和DeepMind整合在一起1年半后,Google进行了进一步的垂直整合:
2024年10月,Google将萧令怡领导、原本独立运行的Gemini应用团队也并入了Google DeepMind,以解决长期以来研究成果与市场需求脱节的问题,使得模型迭代能以周为单位响应用户反馈。
2025年4月,乔什·伍德沃德从萧令怡手中接任Gemini产品总负责人后,和原先负责的Google Labs一起也加入了Google DeepMind。
至此,Google的全部AI业务——从模型到应用——全部归拢到了Google DeepMind旗下,由哈萨比斯统一管理。
皮查伊在2024年10月的重组备忘录中多次强调,调整的唯一目的是:精简反馈环路。“研发AI产品与构建AGI之间,90%的工作是相同的。”哈萨比斯在一次采访中说,“如果你开发产品并将其推向世界,通过用户的使用,你会发现很多情况,这对研究非常有帮助。”
在这种模式下,典型的创新项目不再由单一团队闭门造车,而是通过多方深度交织的协作完成。
以AI视频创作工具Google Flow为例,它是由Google Labs、Creative Lab以及Google DeepMind三方共同开发的。团队在获得Google Veo视频模型的关键技术突破点后,不到100天时间便构建出了匹配该模型能力的产品。这种研发与产品的极限同步,使得Google底层技术的进展能够以前所未有的速度转化为真实的用户体验。
为了确保技术不脱离实际应用,伍德沃德在NotebookLM引入外部创意共创者的技巧被广泛使用。从好莱坞专业人士到新兴AI电影制作人,这些行业专家都参与了实战测试。通过持续的功能反馈与修剪,Flow功能的边界也逐渐清晰起来。
在Google 2025年6月发布的技术报告《Gemini 2.5: Pushing the Frontier…》中,官方特别致谢了产品反馈团队,指出多模态能力的提升直接受益于Gemini用户的实际场景反馈。
不久后,伍德沃德再次证明了他的方法论在制造模型与产品双赢方面的有效性。
2025年8月12日,一个代号为Nano Banana的神秘图像生成模型悄然出现在LMArena模型评测平台上。这是全球最主流的模型竞技场,当用户输入提示词后,平台会随机选出两个匿名模型对战,用户根据生成结果投票。
用户很快发现,这个神秘模型有着惊人的图像生成品质,不仅在人物一致性、动作遵循、场景理解方面远超其他模型,而且还支持精准的图片编辑,例如为图片换个背景,或者把图片中的人物换成其他角色。
全球技术社区都在寻找这个神秘模型的身份。直到2025年8月26日,Google正式揭晓答案:这就是最新一代的图像生成模型Gemini 2.5 Flash Image。
而Nano Banana真正引爆全球的契机是随后在社交媒体上掀起的3D手办化热潮。用户发现该模型具备极强的角色一致性,仅需一张普通照片,就能将其精准转化为细节惊人的数字收藏手办。产品团队在观察到这一趋势从东南亚蔓延至越南、印尼并最终走向全球后,迅速向模型后训练团队提出需求,引入大量微距摄影、材质纹理等数据,让生成的3D模型呈现出一种高档塑料玩具特有的质感。
Nano Banana在社交媒体上的热潮让Gemini迅速进入了大众视野,而紧接着的2025年11月中旬发布的Gemini 3模型,因为其在推理、多模态能力上的强劲表现,给ChatGPT带来了极大压力。
根据SimilarWeb统计的2025年11月数据,Google Gemini当月的网站访问量环比激增14.3%至13.51亿次,行业领头羊ChatGPT则跌破60亿大关降至58.44亿次,这已是它在2025年内第二次出现月度流量下滑。同时,用户在Gemini上的平均停留时长也已超越了ChatGPT。
攻守之势发生逆转。2025年12月,就在Google由于ChatGPT而发布红色警报的三年后,OpenAI CEO山姆·阿尔特曼(Sam Altman)在内部备忘录中告知员工,他将启动红色警报以全力改进ChatGPT,并计划推迟广告业务等其他项目。
本文来自微信公众号:新皮层NewNewThing,首发于《第一财经》杂志3月刊,作者:王杰夫,制图:景毅,编辑:吴洋洋
