2026-06-03 12:05

Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

本文来自微信公众号：每日天使，作者：每日天使，原文标题：《Gemma 4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma 4背后的技术野心》

Omar Sanseviero是Google DeepMind的开发者体验（DevRel/DevEx）负责人，也是Gemma开源模型对外的核心面孔。在AI Engineer大会（伦敦）期间，他与Latent Space主持人进行了一场高密度的技术对谈——从Gemma 4的架构创新（E2B参数卸载）、到多模态能力路线图、到MOE与Dense模型的微调权衡，再到DeepMind这个传统研究实验室的组织转型。对于关注AI基础设施、开源模型生态和端侧部署的读者来说，这是一场信息量极大的对话。

导语

Gemma 4刚刚发布。这是Google DeepMind有史以来最强大的开放模型，虽然参数规模与上一代持平（约300亿），但「单位参数的智能密度」大幅提升。Omar Sanseviero带领的团队只有两三个PM和一位市场人员，却协调了50+外部合作伙伴完成发布。在这场录制于AI Engineer London的对谈中，Omar分享了Gemma 4背后的技术决策——为什么要把50亿参数模型设计成只需2B有效参数？为什么MOE模型微调这么难？开放模型的知识上限在哪里？以及一个可能让你意外的判断：1-2年内，你的手机上就能本地运行Gemini 3 Pro级别的模型。

正文

一、Gemma 4与E2B架构：50亿参数只需2GB显存

主持人：Gemma 4、Gemma 3.1、Gemma Scope、Med Gemma——给我们一个概览。

Omar Sanseviero：Gemma 4刚刚发布，这是我们迄今发布的最强开放模型。我们真正尝试在每参数上压缩尽可能多的智能，并把所有多模态能力都带进来。

主持人：你们有一个「有效参数」而非「激活参数」的概念，能解释一下吗？

Omar Sanseviero：在传统Transformer架构中，你有一个大的嵌入层。新架构在每一层加了一个嵌入表。令人兴奋的是你不需要做完整的矩阵乘法——这本质上是一个查找表。Gemma 4的E2B模型意味着有效加载到GPU的参数只有20亿，但实际拥有近50亿参数。那30亿参数可以在CPU上、甚至磁盘上。这意味着推理速度极快——就是查个表。

主持人：那缺点是什么？为什么不所有模型都这样做？能规模化吗？

Omar Sanseviero：我们做了大量质量实验，这个设计是专门为端侧优化的——运行在手机、Android、树莓派上。当你往大做的时候，你通常想要更密集的架构或MOE。这些研究决策对小型用例非常有效。

主持人：今天早上你组织的跑步活动中，我遇到Cormac，他说中国的超级App已经把模型打包进应用包里进行本地推理了。这是你们的目标场景吗？

Omar Sanseviero：是的。实际上如果你买Pixel手机或高端三星手机，它们预装了Gemini Nano。Gemini Nano是建立在Gemma之上的。去年我们发布了Gemma 3N，专门为手机场景设计。他们使用Gemma 3N加上额外训练和适配来做端侧任务。所以买高端手机的用户开箱就能使用Gemini了。

二、Gemma 4的发版工程：小团队如何协调50+合作伙伴

主持人：发版一个这样的模型背后是什么样的？

Omar Sanseviero：很复杂。Gemma团队其实相对较小——两三个PM、一个市场人员，然后是工程师和研究员。当然有完整的训练部分：后训练、蒸馏、后训练技术等。一旦模型就绪，最令人兴奋的是与开源伙伴合作——llama.cpp、Ollama、MLX、Hugging Face、vLLM、Nvidia、AMD……Gemma 4是迄今最复杂的发布，我们协调了近50个外部合作伙伴。同时内部也跨团队协作：Google Cloud、Vertex（模型即服务）、ADK、Android。Gemma 4随Android Studio集成发布——在Android Studio的Agent模式下可以离线使用llama.cpp或vLLM。你现在可以在Android Studio里用Gemma 4来写Android代码了。

主持人：什么时候用户会选Gemma 4而不是直接用Gemini？除了离线或隐私原因以外。

Omar Sanseviero：就是离线或隐私场景。如果你不想把任何代码发送给任何API，就用本地的。我在10小时飞伦敦的航班上也确实用了Gemma。

三、小模型与大模型的边界：知识是最后一道墙

主持人：你觉得未来小模型会好到蚕食大模型吗？这是Google的一个有趣位置——你有大Gemini，也有Gemma，两者都在指数级进步。现在的Gemma比几年前的闭源模型强多了。

Omar Sanseviero：对我来说这非常令人兴奋。Gemma 4在大多数任务上已经匹敌一年半前的最先进水平。在本地模型上，你可以获得代理能力、函数调用、系统指令、对话能力。但知识要困难得多——你需要更大的模型来存储知识。这就是为什么Gemini在事实和信息方面好很多。我认为在1到2年内，你将能在手机上直接运行相当于Gemini 3 Pro级别的模型。一旦到达那个点，从产品集成和用户体验的角度来看，一切都会非常令人兴奋。我不会说它会蚕食——仍然是两个不同的东西。旗舰能力、超级复杂的长运行任务用Gemini。但很多代理类的事情，很快就能直接在设备上完成。

四、多模态路线图：图片、音频、视频各自走到哪了

主持人：聊聊多模态方面的进展？

Omar Sanseviero：Gemma 4建立在与Gemini 3相同的研究基础上。小型模型可以理解音频、图片和短视频（30-60秒）。甚至端侧的2B、4B模型也能做很好的多模态。在音频方面，我们有语音识别、语音转译文本、以及一定的语音理解能力——可以对音频文件提问。视觉方面改进了很多：物体检测、指向、描述。我们还没有图像分割，很多人一直在问这个。另外还不能同时处理视频和音频——视频输入和音频输入是分开的。

主持人：这只是需要更多数据吗？

Omar Sanseviero：可能一些额外的微调就能产生非常好的基线模型。

主持人：音频输出呢？

Omar Sanseviero：我们正在探索一些东西，目前还不能分享。

主持人：大家都在期待原生语音到语音。但据我所见，人们总是很兴奋，然后pipeline方案总会赢。

Omar Sanseviero：（笑）是的。

五、多语言分词器：Gemma的秘密武器

Omar Sanseviero：Gemma的多语言能力也很重要——支持140种语言。分词器基于Gemini分词器，极其优秀。即使Gemma的基础能力不如某些模型，如果你用它微调特定语言（比如越南语），结果会比用其他基础模型微调更好——因为分词器能捕捉正确的Token。

主持人：我总觉得有某种极限——你理解了核心概念，它就能翻译成任何语言。

六、扩散Transformer：文本生成的新范式？

主持人：你们带了做扩散Transformer模型的研究员来。扩散模型用于文本生成而非图像——主卖点是速度。除了速度还有什么？

Omar Sanseviero：主要就是速度。可能在代码结构方面有一些优势——「括号放这里」然后填空。fill-in-the-middle过去是很多公司在尝试攻克的单独生成任务，现在人们默认模型就能做。不需要特殊分词器技巧。过去你必须在训练时重新排列数据集，稍微偏离训练格式结果就很差。现在开箱即用就很好。

主持人：文本扩散有没有可能超越自回归？

Omar Sanseviero：目前还非常实验性。模型质量仍然比正常自回归模型差一些。扩散Transformer模型也很难微调。我能看到一个未来：有一个强大的代理管理器作为系统一，扩散执行器作为系统二——但这只是一个非常假设性的画面。

七、微调正在消亡吗？

主持人：现在还有人在做微调吗？除了Cursor这样的大公司。

Omar Sanseviero：2023-2024年有很多微调社区，但过去两年变化很大——模型开箱即用已经非常好了。Gemma 4的一些合作伙伴原本计划微调27B模型做视觉任务，然后发现模型开箱就太好了，不需要微调。作为通用对话模型，微调的热度在下降。但特定领域（金融、医疗）仍然需要。社区里的Daniel Han和Astral Michael还在做很棒的微调工具。但趋势在变——人们不再那么频繁微调了。

主持人：苹果的端侧Foundation模型用了多个LoRA做不同任务。你怎么看多LoRA方案？

Omar Sanseviero：这是一个大挑战。假设你手机上有20个App，每个App自带LoRA。当基础模型更新时，所有LoRA也要更新。你不想让用户手机上有20个不同的基础模型——电池会撑不住。Android和iOS的发布周期又不同。这更多是产品和开发者体验层面的行业挑战。

八、MOE vs Dense：微调的暗坑

主持人：你们有两个尺寸相近的模型——31B Dense和27B MOE（4B激活参数）。什么时候该选哪个？

Omar Sanseviero：31B量化后刚好能放进消费级GPU，27B则是在同样约束下实现极速推理。MOE作为AI架构极其优秀，推理很好。但人们微调MOE时确实遇到困难——标准配方和超参数对MOE不直接适用。直觉是路由机制影响了反向传播。有很多变量：触发多少专家、是否冻结路由器等等。

主持人：对我来说，最重要的渐近线是最小稀疏度能达到什么水平，以及每字节的ELO。

Omar Sanseviero：是的，单位参数智能密度才是关键。Gemma 2、3、4三代都是约300亿参数，但智能水平大幅提升——参数规模没变。当一切参数都是稠密的时候，比较模型更简单。现在有了稀疏性、参数卸载……没法做苹果对苹果的比较了。3年后一个300亿参数模型可能极为强大，但知识仍有局限——它可能不知道某个国家25年前的总统是谁。这是信息论层面的问题——你在把模型当数据库用，当然有上限。

九、GemmaScope与可解释性：研究平民化的入口

Omar Sanseviero：去年12月我们发布了GemmaScope——可以分析不同层基于Token的激活。团队发布了几TB甚至接近1PB的数据，因为我们为Gemma 3所有模型的每一层都做了分析。这是一个非常好的领域：不需要大量算力就能入门，可以理解模型工作原理，实验各种东西。我们把这些研究员带到AI Engineer大会的原因是：工程师想了解他们使用的模型是怎么训练的，即使自己永远不会训练模型。拉开一点帷幕能建立信任。而且机械可解释性可能是工程师进入研究领域最简单的路径。

主持人：很多研究人员其实就是在做消融实验——挪动组件看看什么有效。这在很大程度上是工程而非研究。有趣的是现在每个研究人员都有了自己的个人研究工程师（指AI工具）。

Omar Sanseviero：是的，团队内部已经在构建Skills来做实验、消融和评估。研究人员如何将代理工具整合到研究流程中，非常有趣。

十、自动研究与研究民主化

主持人：你怎么看自动研究？

Omar Sanseviero：每个AI浪潮都有一个AutoML浪潮。几年前AutoML主要就是参数搜索。Karpathy的实验很有趣。部分自动研究就是通过代理加速实验——编码代理更自主，你可以去睡觉它帮你跑。但我认为最令人兴奋的是：如果自动研究产生了一个「Move 37」——一个人类不会想到但成功的发现。不同的地方在于探索人类不会考虑的轨迹并做出新发现。随着Token花费增加，希望这成为可能。下一代微调者将不再写代码——他们会用Skills通过Hugging Face等工具提示代理启动实验。如果你只是想要垂直领域能力提升，不需要写微调代码。但如果你想做更深层的架构研究，我的直觉是这至少在1-2年内无法自动化。

十一、团队扩张与DeepMind的组织转型

主持人：聊聊你的团队吧。Logan在旧金山，你招了我们很多朋友——Thor、Ivan。团队现在什么样？

主持人：DeepMind过去不怎么涉及产品——但现在有Gemini API、Kaggle也加入了。组织架构怎么样？

Omar Sanseviero：几周前Kaggle加入了DeepMind。他们刚发布了一个代理评估系统——让代理参加考试并在排行榜上竞争。Kaggle的社区、黑客马拉松和基准测试与我们思考Gemini能力的方式非常契合。在评估领域，很多基准测试被钻空子。我们想识别那些我们可能没意识到自己拥有的能力或可以改进的地方，把社区的反馈有机地带回模型本身。我们构建Gemma、Gemini和所有工具的方式，本质上都是基于初创公司、社区、开发者的反馈。这就是为什么Logan和团队中的每个人都在社交媒体、论坛和活动中与社区交流。

十二、结尾

主持人：你们在做很棒的工作。非常感谢来参加。期待看到下一步。

Omar Sanseviero：谢谢邀请我们。

视频链接：https://www.youtube.com/watch?v=Hxlayqs-IAs

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP