国思软件 - 最小仅2B！谷歌最强开源模型登场，免费商用，手机就能跑

　　智东西

　　编译陈佳

　　编辑程茜

　　4 月 3 日消息，今日谷歌 DeepMind 开源发布 Gemma 4 系列模型，根据官方博客，这是谷歌迄今为止最智能的开放模型，专为高级推理和智能体工作流而设计，实现了单位参数下前所未有的智能水平。

　　其中，31B 模型目前在行业标准的 Arena AI 文本排行榜上名列全球开放模型第 3 位，在 GPQA Diamond 在这一高难度科学推理基准上取得 85.7% 的准确率，仅次于 Qwen3.5 27B 的 85.8%。

　　▲Gemma 4 系列模型在多项基准测试中的表现对比（图源：blog.google）

　　自第一代模型发布以来，Gemma 的下载量已突破 4 亿次，并衍生出超十万种社区变体。

　　Gemma 4 系列是基于与 Gemini 3 相同的技术体系构建的，支持图像与视频（以帧序列形式）及文本输入，小模型版本进一步支持音频理解。该系列共四款型号，E2B、E4B、26B 混合专家模型（MoE）与 31B 稠密模型，覆盖从智能手机、树莓派到专业工作站的完整部署场景，全部采用 Apache 2.0 协议开放，开发者可自由修改、再分发并用于商业产品。

　　有开发者在社区评论中说：“基准数据一直都在，但没人愿意在一个谷歌随时可能改规则的模型上建立产品。现在它才真的可以部署了。”

　　▲Gemma 4 官方模型集合页面（图源：Hugging Face）

　　在硬件覆盖上，Gemma 4 采取“移动优先”的设计理念，同时兼顾全栈部署需求。E2B 与 E4B 专为边缘设备优化，可在手机、树莓派、NVIDIA Jetson Orin Nano 上完全离线运行，延迟趋近于实时；26B 与 31B 模型的非量化 bfloat16 权重可在单张 80GB NVIDIA H100 GPU 上运行，量化版本则支持消费级 GPU 本地部署。

　　谷歌 DeepMind CEO 德米斯·哈萨比斯（Demis Hassabis）将 Gemma 4 称为“在各自参数量级下性能最优的全球开源模型”。

　　▲谷歌 DeepMind CEO 德米斯·哈萨比斯（Demis Hassabis）在X平台的推文

　　Hugging Face 联合创始人克莱门特·德朗格（Clément Delangue）将 Gemma 4 模型发布视为“本地 AI 正在迎来关键发展阶段”，并认为开放模型与可本地部署能力将成为未来 AI 的重要方向。

▲Hugging Face 联合创始人克莱门特·德朗格（Clément Delangue）在X平台的推文

　　此次 Gemma 4 的发布，被多家外媒视为谷歌重返开源主战场，美国模型阵营迎来关键补位。

　　Hugging Face 地址：https://huggingface.co/collections/google/gemma-4

　　官方技术博客：https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

　　一、4 大模型配置，性能表现超越参数规模达其 20 倍的模型

　　在官方技术博客中，谷歌说 Gemma 4 实现了单位参数下前所未有的智能水平，能在更低计算开销下实现更强性能。

　　该系列并非延续单纯扩大参数规模的路径，而是通过架构设计与训练优化的系统性改进，使开发者以更低硬件成本获得接近前沿模型的能力。

　　Gemma 4 提供四种规模配置：E2B、E4B、26B 混合专家模型（MoE）以及 31B 稠密模型。

　　31B 模型目前在行业标准的 Arena AI 文本排行榜上名列全球开放模型第 3 位，26B 模型则名列第 6 位。在榜单中，Gemma 4 的表现甚至超越了规模达其 20 倍的模型。对于开发者而言，这种单位参数智能水平的新高度意味着只需极低的硬件开销，即可获得前沿模型级别的能力。

▲Gemma 4 在 Arena 用户偏好排行榜中的参数量对比（左）与用户偏好（右）（图源：blog.google）

　　架构层面，26B MoE 模型采用“按需激活参数”的设计，推理时仅激活约 3.8B 活跃参数，在显著降低算力需求的同时保持高性能输出；E2B 与 E4B 小模型则引入 Per-Layer Embeddings（PLE）机制，为解码器每一层引入独立的 embedding 表，从而增强各层的表达能力并提升参数利用效率，使模型在不显著增加计算负担的前提下获得更强的表征能力。

　　在注意力机制上，Gemma 4 交替使用局部滑动窗口注意力与全局注意力机制，并在最后一层采用全局注意力，在保证长上下文能力的同时有效控制内存消耗。

　　在上下文处理能力上，边缘机型配备 128K 的上下文窗口，而更大型号则提供 256K 的上下文窗口，允许用户在一次提示中处理存储库或长文档。

　　这套架构优化的实际效果已在具体应用中得到验证。谷歌在博客中列举了两个典型案例：INSAIT 基于 Gemma 系列开发了保加利亚语优先大模型 BgGPT，耶鲁大学则与谷歌合作推进 Cell2Sentence-Scale 项目，探索癌症治疗新路径。这些案例基于对 Gemma 模型的微调与适配，体现出 Gemma 在垂直领域应用中的潜力。

　　二、原生支持图像、视频输入，可处理 140 种语言

　　Gemma 4 不再局限于文本生成，而是从底层架构出发，将多模态理解与智能体（Agent）调用能力原生整合进同一模型体系。

　　全系四款模型均原生支持图像与视频输入，其中视频以帧序列形式处理，在 OCR、图表理解等视觉任务中表现较为突出；E2B 与 E4B 进一步集成原生音频能力，支持语音识别与理解。

　　在视觉处理精度上，模型支持可变分辨率与可配置 token 预算，官方提供 70 至 1120 token 等多档配置：低预算适用于分类与视频帧理解等速度敏感场景，高预算则用于 OCR、文档解析与细粒度图像分析。

　　Gemma 4 将函数调用（function calling）与结构化输出能力直接训练进模型本身，而非依赖提示工程引导。模型可原生输出结构化 JSON，支持多工具调用与多轮任务执行，使其能够稳定参与自动化工作流，有效降低开发者构建智能体系统的工程成本。

　　在代码能力上，Gemma 4 支持高质量离线代码生成，可在本地环境运行，被定位为“本地优先”的 AI 编程助手。在多步推理与复杂指令执行任务中，其表现较上一代显著提升。此外，模型原生支持超过 140 种语言。

　　三、采用 Apache 2.0 许可证开源，可在手机上离线运行

　　技术能力之外，Gemma 4 的另一核心变化在于开放策略的调整。谷歌此次全面采用 Apache 2.0 许可证，取代此前的自定义授权方式，允许开发者自由修改、再分发及商业化部署，赋予其对模型、数据与基础设施更高的控制权。

　　▲Apache License 2.0 开源协议核心条款说明（图源：devmandan）

　　在开发与部署层面，Gemma 4 强调“从实验到生产”的完整链路支持。开发者可通过 Google AI Studio（支持 31B 与 26B MoE）与 AI Edge Gallery（支持 E4B 与 E2B）快速体验模型能力，也可在 Android Studio 中结合 Agent 模式进行移动应用开发。

　　在工具链适配上，Gemma 4 发布首日即支持 Hugging Face（含 Transformers、TRL、Transformers.js、Candle）、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang 等主流框架，模型权重通过 Hugging Face、Kaggle 与 Ollama 开放下载。

　　此外，Gemma 4 针对 NVIDIA GPU（涵盖 Jetson 至 Blackwell 架构）、AMD GPU（ROCm 生态）以及谷歌自研 Trillium 与 Ironwood TPU 进行了深度优化，实现跨硬件平台的高效适配。云端方面，可通过 Vertex AI、Cloud Run、GKE 及 TPU 加速服务等多种方案扩展至生产规模。

　　四、实测多模态复杂任务效果一般

　　知名 AI 开发者 Simon Willison 在实际测试后指出，Gemma 4 在“单位参数能力”（intelligence per parameter）上的表现尤为突出，这一指标反映出模型在有限参数规模下实现更高性能的能力。他认为，相较于持续扩大模型体量，如何在既有参数约束下提升性能，正逐渐成为当前模型优化的重要方向。

　　Willison 以“骑自行车的鹈鹕”这一复杂视觉生成任务为例，对不同规模模型进行对比测试。结果显示，从 2B 到 26B 参数规模，模型生成质量呈现出明显的递进关系：小模型在复杂结构表达上仍存在不足，而中等规模模型已能够生成语义较为完整的图像。这一现象表明，尽管小模型在效率上取得进展，但在多模态复杂任务中仍对模型规模存在一定依赖。

　　▲Willison 以“骑自行车的鹈鹕”对该模型从 2B 到 4B 再到 26B-A4B 的测试

　　Willison 提到，该系列模型已不仅限于文本处理，还支持图像及视频（以帧序列形式）输入与音频。其中，E2B 与 E4B 等小参数模型已具备语音理解能力。不过，从实际开发环境来看，这些能力尚未完全落地，本地推理框架对音频等输入形式的支持仍在完善过程中。

　　Hugging Face 在 Gemma 4 技术解读中指出，与以往主要依赖云端部署的超大模型不同，Gemma 4 系列覆盖从 2B 到 31B 的多种参数规模，使其既可应用于数据中心，也能够运行在本地设备乃至边缘硬件上，体现出模型向“端侧可用”的发展趋势。

　　Gemma 4 通过结构优化与机制创新，使小参数模型在保持资源消耗可控的前提下实现能力提升。以 E2B、E4B 为代表的小模型，不仅支持多模态输入，还通过结构优化提升参数利用效率，使其在保持较低资源消耗的同时具备较强任务能力。

　　五、编程、高难度推理表现，接近 Qwen3.5

　　从 Arena 榜单的对比结果来看，Gemma 4 在文本类任务中的整体能力较上一代实现了全面提升。无论是在写作、编程、复杂指令执行，还是多轮对话与长文本理解等场景中，其表现均明显优于 Gemma 3 和 Gemma 2，并在多个维度接近当前开源模型的第一梯队。

　　具体来看，Gemma 4 在“专家级文本理解”和“代码生成”等高难度任务上提升尤为显著，同时在创意写作、复杂提示处理等场景中也表现出更稳定的输出质量。这种全维度外扩的能力曲线，意味着该模型不再只在个别任务上优化，而是在通用文本能力上实现整体提升。

　　▲Gemma 系列模型在 Arena 文本类别排名对比（图源：Arena.ai）

　　根据独立 AI 评测媒体 ai.rs 对 Gemma 4、Qwen 与 Llama 的对比评测分析，此次升级被认为是开源模型领域“单代提升幅度最大的一次”，其进步并非渐进式优化，而是跨越式跃升。

　　尤其在编程能力上，Gemma 4 的 Codeforces ELO 评分相较上一代 Gemma 3 的 110 分（接近勉强可用水平），大幅提升至 2150 分（接近竞技编程专家级）。

　　▲Gemma 4 编码能力测试（图源：ai.rs）

　　ai.rs 进一步指出，在高难度推理与代码生成等关键任务上，Gemma 4 整体表现达到当前开源模型中的领先水平。

　　独立 AI 基准测试机构 Artificial Analysis 发布的 GPQA Diamond 排行榜显示，谷歌 Gemma 4 31B 模型在高难度科学推理基准上取得 85.7% 的准确率，位列榜单前列，与 Qwen3.5 27B（85.8%）表现接近。

　　该基准包含 198 道由博士级专家编写的“防搜索”问题，涵盖生物、化学和物理领域，要求模型具备真正的研究生级科学推理能力，而非依赖外部知识检索。相比之下，人类领域专家的平均准确率约为 65%。

　　值得注意的是，Gemma 4 系列在参数效率上表现出色：其 26B 和 31B 变体在得分与参数量的对比图中落入高效象限，证明 Gemma 4 以相对较小的参数规模实现了高性能。

▲GPQA Diamond 基准测试结果（柱状图）及得分与参数量关系（散点图）（图源：Artificial Analysis）

　　结语：从“能用”到“可部署”，效率、成本与生态的综合较量

　　从此次 Gemma 4 的发布来看，其意义并不只在于单一指标的提升，而是性能、部署方式与授权策略的同步变化。Gemma 4 一方面通过架构优化提升参数利用效率，小模型能力持续逼近中等规模模型，另一方面多模态能力与本地部署能力同步推进，在部分场景下减少对云端算力的依赖。

　　从更宏观的视角来看，开源大模型竞争已不再局限于性能指标，而是转向效率、成本与生态的综合较量。谁能在“好用、可部署、可扩展”之间取得平衡，谁才更有可能在下一阶段占据主导地位。

最小仅2B！谷歌最强开源模型登场，免费商用，手机就能跑

我们的产品

相关链接

关于我们

联系我们