5天前

英伟达加速 Gemma 4 模型,赋能本地化智能体 AI

新闻图片

Google在2025年I/O大会推出Gemma 3n多模态AI模型,该模型已获得NVIDIA优化支持,可在本地RTX GPU上高效运行,支持图像、文本、音频和视频等多种输入,标志着端侧智能体AI开发的重大突破。

4 来源
Gemma 3n多模态模型首次亮相,本地端AI开发迎来新机遇

Google在2025年I/O大会上以预览版身份推出Gemma 3n,这是一款从零打造的多模态模型,专为本地硬件运行而设计[1]。该模型的核心优势在于其创新的"E系列模型"设计,包括E2B和E4B两个主要版本,分别对应约5B和8B的实际参数数量[1]

通过优化的模型架构与记忆体配置,E2B仅需2GB GPU VRAM、E4B仅需3GB GPU VRAM即可运行,彻底打破了过去模型体积与硬件需求间的限制,让高品质模型得以在低功耗设备甚至移动设备上流畅运行[1]。每层嵌入支持CPU卸载(PLE技术),进一步减少对加速器内存的依赖[1]

NVIDIA优化支持,RTX GPU成最佳运行平台

NVIDIA已针对GeForce RTX GPU优化了Google Gemma 3系列模型的性能,并推出了针对全新Gemma 3 270M和EmbeddingGemma模型的支持[1]。最新更新优化了模型的运行速度,让模型调度变得更智能,以减少内存问题并提高多GPU效率[1]

Ollama-for-amd项目同样确保AMD用户能够及时体验Gemma等最新AI技术进展[2]。这种跨平台支持意味着更广泛的用户群体可以在本地部署和运行Gemma模型,而无需依赖昂贵的专业AI加速卡[2]

多模态能力突破,视觉与语音处理能力领先

Gemma 3n不仅是语言模型,还融合了视觉与音频处理能力,实现真正的跨模态理解[1]。视觉模块采用最新版MobileNet-V5(300M参数),支持256×256、512×512甚至768×768的高分辨率输入,在Google Pixel上可实现60FPS的运算速度,性能超越ViT Giant同时参数量减少三倍[1]

音频方面,Gemma 3n建立在Google通用语音模型(USM)基础上,可处理160ms音频分块,支持语音到文字的转录,甚至包含语音翻译(如英文到西班牙语/法语等)[1]。音频与视频推理因KV快缓共享而加速,预填速度较过去版本快两倍,大幅改善长上下文处理效能[1]

性能基准与全球应用潜力

在性能基准测试上,Gemma 3n E4B型号于LLMArena成为首个在10B以下参数规模中突破1300分的模型,在MMLU测试中也展现稳定优势[1]。其多语言处理能力支持140种语言输入,并能进行35种语言间的多模态交互,使其具备成为全球多语应用骨干模型的潜力[1]

EmbeddingGemma作为配套产品,是当前500M参数以下最强开源多语言文本嵌入模型,在200MB以下内存中实现服务器级语义理解能力,专为移动端RAG、离线搜索和隐私优先场景设计,与Gemma 3n无缝协作[2]。这套完整的本地化解决方案,为企业在避免敏感数据外传的前提下构建自主智能体奠定了基础。

本内容由AI生成