谷歌正式发布 Gemma 3n 小钢炮模型：2GB 内存本地玩转 AI 多模态

作者：故渊 2025-06-27 03:38

在 2025 年 I/O 开发者大会上预览发布后，谷歌已正式推出 Gemma 3n 端侧多模态模型，支持在手机、平板和笔记本电脑上本地运行，处理音频、文本、图片和视频多种数据类型。

科技媒体 NeoWin 今天（6 月 27 日）发布博文，报道称在 2025 年 I/O 开发者大会上预览发布后，谷歌已正式推出 Gemma 3n 端侧多模态模型，支持在手机、平板和笔记本电脑上本地运行，处理音频、文本、图片和视频多种数据类型。

相比较 5 月发布的预览版，最新发布的 Gemma 3n 完整版进一步提升性能表现，支持在 2GB 内存的硬件上本地运行，重点提升了编码和推理方面的能力。

AI在线援引博文介绍，Gemma 3n 共有两种规模版本，其中 E2B 共有 50 亿（5B）参数，支持在 2GB 以上内存设备上运行；E4B 共有 80 亿（8B）参数，支持在 3GB 以上内存设备上运行，两者通过架构创新，内存占用相当于 20 亿（2B）和 40 亿（4B）模型。

在架构方面，Gemma 3n 创新采用 MatFormer 架构，来提供计算灵活性，此外使用 Per Layer Embeddings（PLE）以提升内存效率、MobileNet-v5 视觉编码器等等。

对于 MatFormer 架构，谷歌用一个俄罗斯套娃的比喻来描述：一个较大模型内部包含一个较小但完全功能的版本，让单一模型能够根据不同任务以不同大小运行。

Gemma 3n 在多语言（支持 140 种语言的文本和 35 种语言的多模态理解）、数学、编码和推理方面都实现了质量提升。

谷歌正式发布 Gemma 3n 小钢炮模型：2GB 内存本地玩转 AI 多模态

在性能基准方面，较大的 E4B 模型是首个参数量低于 10B 但 LMArena 得分超过 1300 的模型。

模型的音频能力现在支持设备上的语音转文本和翻译，使用一个能够处理细致语音的编码器。

视觉方面则由一个名为 MobileNet-V5 的新编码器提供动力，比前代更快、更高效。它能在 Google Pixel 设备上以最高 60FPS 处理视频。

谷歌正式发布 Gemma 3n 小钢炮模型：2GB 内存本地玩转 AI 多模态

谷歌发布 Gemma 3n 端侧多模态模型，2GB 内存也能玩转 AI

今天召开的 2025 年 I/O 开发者大会上，谷歌推出了 Gemma 3n 端侧多模态 AI 模型，可以在手机、平板和笔记本电脑上本地运行，处理音频、文本、图片和视频多种数据类型。

5/21/2025 2:30:27 PM

故渊

谷歌推出 Gemma 3：号称可在单块 GPU 上运行的最强 AI 模型

谷歌今日推出了 Gemma 3 人工智能模型，这是继其一年前发布基于与 Gemini AI 相同技术的两款“开放”Gemma AI 模型后的又一升级之作。根据谷歌官方博客消息，Gemma 3 模型专为开发者设计，旨在支持他们构建能够在多种设备上运行的人工智能应用，无论是手机还是工作站，均可实现无缝运行。该模型支持超过 35 种语言，并具备分析文本、图像及短视频的能力。

3/12/2025 4:16:40 PM

远洋

谷歌 Meet 视频会议平台将上线 Gemini“AI 同传”，可还原声音、语气、情感

在今日的 I/O 大会上，谷歌宣布将语音翻译功能引入 Meet视频会议平台。该技术借助 Gemini 人工智能，可将用户语音实时翻译成对方所使用的语言。

5/21/2025 1:22:12 AM

清源

谷歌正式发布 Gemma 3n 小钢炮模型：2GB 内存本地玩转 AI 多模态

相关资讯

谷歌发布 Gemma 3n 端侧多模态模型，2GB 内存也能玩转 AI

谷歌推出 Gemma 3：号称可在单块 GPU 上运行的最强 AI 模型

谷歌 Meet 视频会议平台将上线 Gemini“AI 同传”，可还原声音、语气、情感