英伟达加速 Gemma 4 模型，赋能本地化智能体 AI

Google在2025年I/O大会推出Gemma 3n多模态AI模型，该模型已获得NVIDIA优化支持，可在本地RTX GPU上高效运行，支持图像、文本、音频和视频等多种输入，标志着端侧智能体AI开发的重大突破。

4 来源

Gemma 3n多模态模型首次亮相，本地端AI开发迎来新机遇

Google在2025年I/O大会上以预览版身份推出Gemma 3n，这是一款从零打造的多模态模型，专为本地硬件运行而设计[1]。该模型的核心优势在于其创新的"E系列模型"设计，包括E2B和E4B两个主要版本，分别对应约5B和8B的实际参数数量[1]。

通过优化的模型架构与记忆体配置，E2B仅需2GB GPU VRAM、E4B仅需3GB GPU VRAM即可运行，彻底打破了过去模型体积与硬件需求间的限制，让高品质模型得以在低功耗设备甚至移动设备上流畅运行[1]。每层嵌入支持CPU卸载（PLE技术），进一步减少对加速器内存的依赖[1]。

1 来源

NVIDIA优化支持，RTX GPU成最佳运行平台

NVIDIA已针对GeForce RTX GPU优化了Google Gemma 3系列模型的性能，并推出了针对全新Gemma 3 270M和EmbeddingGemma模型的支持[1]。最新更新优化了模型的运行速度，让模型调度变得更智能，以减少内存问题并提高多GPU效率[1]。

Ollama-for-amd项目同样确保AMD用户能够及时体验Gemma等最新AI技术进展[2]。这种跨平台支持意味着更广泛的用户群体可以在本地部署和运行Gemma模型，而无需依赖昂贵的专业AI加速卡[2]。

2 来源

多模态能力突破，视觉与语音处理能力领先

Gemma 3n不仅是语言模型，还融合了视觉与音频处理能力，实现真正的跨模态理解[1]。视觉模块采用最新版MobileNet-V5（300M参数），支持256×256、512×512甚至768×768的高分辨率输入，在Google Pixel上可实现60FPS的运算速度，性能超越ViT Giant同时参数量减少三倍[1]。

音频方面，Gemma 3n建立在Google通用语音模型（USM）基础上，可处理160ms音频分块，支持语音到文字的转录，甚至包含语音翻译（如英文到西班牙语/法语等）[1]。音频与视频推理因KV快缓共享而加速，预填速度较过去版本快两倍，大幅改善长上下文处理效能[1]。

1 来源

性能基准与全球应用潜力

在性能基准测试上，Gemma 3n E4B型号于LLMArena成为首个在10B以下参数规模中突破1300分的模型，在MMLU测试中也展现稳定优势[1]。其多语言处理能力支持140种语言输入，并能进行35种语言间的多模态交互，使其具备成为全球多语应用骨干模型的潜力[1]。

EmbeddingGemma作为配套产品，是当前500M参数以下最强开源多语言文本嵌入模型，在200MB以下内存中实现服务器级语义理解能力，专为移动端RAG、离线搜索和隐私优先场景设计，与Gemma 3n无缝协作[2]。这套完整的本地化解决方案，为企业在避免敏感数据外传的前提下构建自主智能体奠定了基础。

2 来源

本内容由AI生成