Google在2025年I/O大会上以预览版身份推出Gemma 3n,这是一款从零打造的多模态模型,专为本地硬件运行而设计[1]。该模型的核心优势在于其创新的"E系列模型"设计,包括E2B和E4B两个主要版本,分别对应约5B和8B的实际参数数量[1]。
通过优化的模型架构与记忆体配置,E2B仅需2GB GPU VRAM、E4B仅需3GB GPU VRAM即可运行,彻底打破了过去模型体积与硬件需求间的限制,让高品质模型得以在低功耗设备甚至移动设备上流畅运行[1]。每层嵌入支持CPU卸载(PLE技术),进一步减少对加速器内存的依赖[1]。