跳到正文
This is Oscar
返回

Gemma 3n 发布:开发者指南

原文标题:Introducing Gemma 3n: The developer guide
原文链接:https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

第一个 Gemma 模型于去年年初发布,此后已发展成为一个拥有超过 1.6 亿次累计下载量的繁荣 Gemmaverse 生态系统。这个生态系统涵盖了我们超过十几个专业模型的家族,涉及从安全防护到医疗应用等各类场景,最令人振奋的是社区带来的无数创新。从 Roboflow 构建企业级计算机视觉,到东京科学大学打造高性能的日语 Gemma 变体,你们的工作为我们指明了前进的方向。

在这一势头的基础上,我们很高兴地宣布 Gemma 3n 的完整版正式发布。上个月的预览版虽然展示了它的一角,但今天我们将释放这一移动优先架构的完整能力。Gemma 3n 是为帮助塑造 Gemma 的开发者社区而设计的,支持你喜爱的工具,包括 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX 等,让你能够轻松地为特定的端侧应用进行微调和部署。本文是开发者深度解析:我们将探讨 Gemma 3n 背后的一些创新技术,分享新的基准测试结果,并展示如何从今天开始构建。

Gemma 3n 有哪些新功能?

Gemma 3n 代表了端侧 AI 的重大进步,将强大的多模态能力带到了边缘设备上,其性能以前只在去年的云端前沿模型中才能见到。

LMArena 文本竞技场 Elo 评分排名,包含 Gemini 1.5 Pro、Gemma 3n E4B、Llama 4 Maverick 17B 128E、GPT 4.1-nano 和 Phi-4

要实现端侧性能的这一飞跃,需要从根本上重新思考模型架构。Gemma 3n 独特的移动优先架构是其基础,而这一切都从 MatFormer 开始。

MatFormer:一个模型,多种规格

Gemma 3n 的核心是 MatFormer(🪆Matryoshka Transformer)架构,这是一种专为弹性推理而构建的全新嵌套式 Transformer。可以把它想象成俄罗斯套娃:一个大模型内部包含多个完全可用的小模型版本。这种方法将Matryoshka 表征学习的概念从仅适用于嵌入层扩展到了所有 Transformer 组件。

MatFormer in Nano V3

在 4B 有效参数(E4B)模型的 MatFormer 训练过程中,一个 2B 有效参数(E2B)的子模型同时在其中被优化,如上图所示。这为开发者今天提供了两项强大能力和应用场景:

1. 预提取模型: 你可以直接下载并使用完整的 E4B 模型以获得最高能力,或者使用我们已经预先提取好的独立 E2B 子模型,可提供最高 2 倍的推理速度。

2. Mix-n-Match 自定义规格: 如需针对特定硬件约束进行更精细的控制,你可以使用我们称为 Mix-n-Match 的方法,在 E2B 和 E4B 之间创建各种自定义规格的模型。这一技术允许你精确切片 E4B 模型的参数,主要通过调整每层前馈网络的隐藏维度(从 8192 到 16384)并有选择性地跳过某些层来实现。我们正在发布 MatFormer Lab,这是一个展示如何获取这些最优模型的工具,这些模型是通过在 MMLU 等基准上评估各种设置来确定的。

使用 Mix-n-Match 的自定义规格

不同模型规格下预训练 Gemma 3n 检查点的 MMLU 评分(使用 Mix-n-Match)

展望未来,MatFormer 架构还为弹性执行铺平了道路。虽然这一能力尚未包含在今天发布的实现中,但它允许单个已部署的 E4B 模型动态地在 E4B 和 E2B 推理路径之间实时切换,从而根据当前任务和设备负载实现性能与内存使用的实时优化。

Per-Layer Embeddings(PLE):释放更强的内存效率

Gemma 3n 模型引入了 Per-Layer Embeddings(PLE)。这项创新专为端侧部署而设计,能够在不增加设备加速器(GPU/TPU)高速内存占用的前提下,显著提升模型质量。

虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为 5B 和 8B,但 PLE 允许将其中相当一部分参数(与每层相关联的嵌入)高效地在 CPU 上加载和计算。这意味着只有核心 Transformer 权重(E2B 约 2B,E4B 约 4B)需要占用通常更为有限的加速器内存(VRAM)。

Per-Layer Embeddings

借助 Per-Layer Embeddings,你可以在加速器中仅加载约 2B 参数的情况下使用 Gemma 3n E2B。

KV Cache 共享:更快的长上下文处理

处理长输入(例如从音频和视频流中提取的序列)对于许多先进的端侧多模态应用至关重要。Gemma 3n 引入了 KV Cache 共享机制,旨在显著加快流式响应应用的首 token 生成时间(TTFT)。

KV Cache 共享优化了模型处理初始输入的阶段(通常称为”预填充”阶段)。局部注意力和全局注意力中间层的 key 和 value 被直接共享给所有上层,与 Gemma 3 4B 相比,预填充性能提升了显著的 2 倍。这意味着模型可以比以前更快地摄取并理解较长的提示序列。

音频理解:语音转文本与翻译功能介绍

Gemma 3n 使用基于通用语音模型(USM)的先进音频编码器。该编码器每 160 毫秒音频生成一个 token(约每秒 6 个 token),然后作为输入集成到语言模型中,提供对声音上下文的细粒度表示。

这种集成的音频能力为端侧开发解锁了以下关键功能:

我们观察到在英语与西班牙语、法语、意大利语和葡萄牙语之间进行语音翻译时效果尤为出色,为面向这些语言的应用开发者提供了极大的潜力。对于语音翻译等任务,利用思维链提示可以显著提升效果。以下是一个示例:

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English:
<start_of_audio><end_of_turn>
<start_of_turn>model

在发布时,Gemma 3n 编码器的实现支持处理最长 30 秒的音频片段。然而,这并非根本性的限制。底层音频编码器是一个流式编码器,通过额外的长音频训练,能够处理任意长度的音频。后续实现将解锁低延迟的长流式应用场景。

MobileNet-V5:新的最先进视觉编码器

除了集成音频能力外,Gemma 3n 还配备了全新的高效视觉编码器 MobileNet-V5-300M,在边缘设备上的多模态任务中提供了最先进的性能。

MobileNet-V5 专为受约束硬件上的灵活性和强大性能而设计,为开发者提供:

这一性能水平得益于多项架构创新,包括:

得益于新颖的架构设计和先进的蒸馏技术,MobileNet-V5-300M 在基于 SigLip 训练(未使用蒸馏)的 Gemma 3 基线 SoViT 上取得了显著超越。在 Google Pixel Edge TPU 上,量化后速度提升 13 倍(不量化为 6.5 倍),参数减少 46%,内存占用缩小 4 倍,同时在视觉-语言任务上提供显著更高的准确率。

我们很高兴分享这一模型背后的工作。请期待我们即将发布的 MobileNet-V5 技术报告,它将深入探讨模型架构、数据扩展策略和先进蒸馏技术。

与社区携手构建

从第一天起,让 Gemma 3n 易于使用就是我们的优先目标。我们很自豪地与众多出色的开源开发者合作,确保在主流工具和平台上获得广泛支持,包括来自 AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM 等团队的贡献。

但这个生态系统只是一个开始。这项技术真正的力量在于你将用它构建什么。因此,我们正在发起 Gemma 3n 影响力挑战赛。你的任务:利用 Gemma 3n 独特的端侧、离线和多模态能力,为更美好的世界构建产品。我们设置了 15 万美元的奖金,寻找引人入胜的视频故事和展示现实影响力的”令人惊叹”演示。立即参赛,共同构建更美好的未来。

立即开始使用 Gemma 3n

准备好探索 Gemma 3n 的潜力了吗?以下是入门方式:

引用


分享到:

上一篇
Meta 的容量效率优化:统一 AI Agent 如何在超大规模下优化性能
下一篇
Agentic Engineering:AI Agent群体如何重新定义软件工程