最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑

  智东西

  编译陈佳

  编辑程茜

  4 月 3 日消息,今日谷歌 DeepMind 开源发布 Gemma 4 系列模型,根据官方博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数下前所未有的智能水平。

  其中,31B 模型目前在行业标准的 Arena AI 文本排行榜上名列全球开放模型第 3 位,在 GPQA Diamond 在这一高难度科学推理基准上取得 85.7% 的准确率,仅次于 Qwen3.5 27B 的 85.8%。

  ▲Gemma 4 系列模型在多项基准测试中的表现对比(图源:blog.google)

  自第一代模型发布以来,Gemma 的下载量已突破 4 亿次,并衍生出超十万种社区变体。

  Gemma 4 系列是基于与 Gemini 3 相同的技术体系构建的,支持图像与视频(以帧序列形式)及文本输入,小模型版本进一步支持音频理解。该系列共四款型号,E2B、E4B、26B 混合专家模型(MoE)与 31B 稠密模型,覆盖从智能手机、树莓派到专业工作站的完整部署场景,全部采用 Apache 2.0 协议开放,开发者可自由修改、再分发并用于商业产品。

  有开发者在社区评论中说:“基准数据一直都在,但没人愿意在一个谷歌随时可能改规则的模型上建立产品。现在它才真的可以部署了。”

  ▲Gemma 4 官方模型集合页面(图源:Hugging Face)

  在硬件覆盖上,Gemma 4 采取“移动优先”的设计理念,同时兼顾全栈部署需求。E2B 与 E4B 专为边缘设备优化,可在手机、树莓派、NVIDIA Jetson Orin Nano 上完全离线运行,延迟趋近于实时;26B 与 31B 模型的非量化 bfloat16 权重可在单张 80GB NVIDIA H100 GPU 上运行,量化版本则支持消费级 GPU 本地部署。

  谷歌 DeepMind CEO 德米斯·哈萨比斯(Demis Hassabis)将 Gemma 4 称为“在各自参数量级下性能最优的全球开源模型”。

  ▲谷歌 DeepMind CEO 德米斯·哈萨比斯(Demis Hassabis)在X平台的推文

  Hugging Face 联合创始人克莱门特·德朗格(Clément Delangue)将 Gemma 4 模型发布视为“本地 AI 正在迎来关键发展阶段”,并认为开放模型与可本地部署能力将成为未来 AI 的重要方向。

▲Hugging Face 联合创始人克莱门特·德朗格(Clément Delangue)在X平台的推文

  此次 Gemma 4 的发布,被多家外媒视为谷歌重返开源主战场,美国模型阵营迎来关键补位。

  Hugging Face 地址:https://huggingface.co/collections/google/gemma-4

  官方技术博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

  一、4 大模型配置,性能表现超越参数规模达其 20 倍的模型

  在官方技术博客中,谷歌说 Gemma 4 实现了单位参数下前所未有的智能水平,能在更低计算开销下实现更强性能。

  该系列并非延续单纯扩大参数规模的路径,而是通过架构设计与训练优化的系统性改进,使开发者以更低硬件成本获得接近前沿模型的能力。

  Gemma 4 提供四种规模配置:E2B、E4B、26B 混合专家模型(MoE)以及 31B 稠密模型。

  31B 模型目前在行业标准的 Arena AI 文本排行榜上名列全球开放模型第 3 位,26B 模型则名列第 6 位。在榜单中,Gemma 4 的表现甚至超越了规模达其 20 倍的模型。对于开发者而言,这种单位参数智能水平的新高度意味着只需极低的硬件开销,即可获得前沿模型级别的能力。

▲Gemma 4 在 Arena 用户偏好排行榜中的参数量对比(左)与用户偏好(右)(图源:blog.google)

  架构层面,26B MoE 模型采用“按需激活参数”的设计,推理时仅激活约 3.8B 活跃参数,在显著降低算力需求的同时保持高性能输出;E2B 与 E4B 小模型则引入 Per-Layer Embeddings(PLE)机制,为解码器每一层引入独立的 embedding 表,从而增强各层的表达能力并提升参数利用效率,使模型在不显著增加计算负担的前提下获得更强的表征能力。

  在注意力机制上,Gemma 4 交替使用局部滑动窗口注意力与全局注意力机制,并在最后一层采用全局注意力,在保证长上下文能力的同时有效控制内存消耗。

  在上下文处理能力上,边缘机型配备 128K 的上下文窗口,而更大型号则提供 256K 的上下文窗口,允许用户在一次提示中处理存储库或长文档。

  这套架构优化的实际效果已在具体应用中得到验证。谷歌在博客中列举了两个典型案例:INSAIT 基于 Gemma 系列开发了保加利亚语优先大模型 BgGPT,耶鲁大学则与谷歌合作推进 Cell2Sentence-Scale 项目,探索癌症治疗新路径。这些案例基于对 Gemma 模型的微调与适配,体现出 Gemma 在垂直领域应用中的潜力。

  二、原生支持图像、视频输入,可处理 140 种语言

  Gemma 4 不再局限于文本生成,而是从底层架构出发,将多模态理解与智能体(Agent)调用能力原生整合进同一模型体系。

  全系四款模型均原生支持图像与视频输入,其中视频以帧序列形式处理,在 OCR、图表理解等视觉任务中表现较为突出;E2B 与 E4B 进一步集成原生音频能力,支持语音识别与理解。

  在视觉处理精度上,模型支持可变分辨率与可配置 token 预算,官方提供 70 至 1120 token 等多档配置:低预算适用于分类与视频帧理解等速度敏感场景,高预算则用于 OCR、文档解析与细粒度图像分析。

  Gemma 4 将函数调用(function calling)与结构化输出能力直接训练进模型本身,而非依赖提示工程引导。模型可原生输出结构化 JSON,支持多工具调用与多轮任务执行,使其能够稳定参与自动化工作流,有效降低开发者构建智能体系统的工程成本。

  在代码能力上,Gemma 4 支持高质量离线代码生成,可在本地环境运行,被定位为“本地优先”的 AI 编程助手。在多步推理与复杂指令执行任务中,其表现较上一代显著提升。此外,模型原生支持超过 140 种语言。

  三、采用 Apache 2.0 许可证开源,可在手机上离线运行

  技术能力之外,Gemma 4 的另一核心变化在于开放策略的调整。谷歌此次全面采用 Apache 2.0 许可证,取代此前的自定义授权方式,允许开发者自由修改、再分发及商业化部署,赋予其对模型、数据与基础设施更高的控制权。

  ▲Apache License 2.0 开源协议核心条款说明(图源:devmandan)

  在开发与部署层面,Gemma 4 强调“从实验到生产”的完整链路支持。开发者可通过 Google AI Studio(支持 31B 与 26B MoE)与 AI Edge Gallery(支持 E4B 与 E2B)快速体验模型能力,也可在 Android Studio 中结合 Agent 模式进行移动应用开发。

  在工具链适配上,Gemma 4 发布首日即支持 Hugging Face(含 Transformers、TRL、Transformers.js、Candle)、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang 等主流框架,模型权重通过 Hugging Face、Kaggle 与 Ollama 开放下载。

  此外,Gemma 4 针对 NVIDIA GPU(涵盖 Jetson 至 Blackwell 架构)、AMD GPU(ROCm 生态)以及谷歌自研 Trillium 与 Ironwood TPU 进行了深度优化,实现跨硬件平台的高效适配。云端方面,可通过 Vertex AI、Cloud Run、GKE 及 TPU 加速服务等多种方案扩展至生产规模。

  四、实测多模态复杂任务效果一般

  知名 AI 开发者 Simon Willison 在实际测试后指出,Gemma 4 在“单位参数能力”(intelligence per parameter)上的表现尤为突出,这一指标反映出模型在有限参数规模下实现更高性能的能力。他认为,相较于持续扩大模型体量,如何在既有参数约束下提升性能,正逐渐成为当前模型优化的重要方向。

  Willison 以“骑自行车的鹈鹕”这一复杂视觉生成任务为例,对不同规模模型进行对比测试。结果显示,从 2B 到 26B 参数规模,模型生成质量呈现出明显的递进关系:小模型在复杂结构表达上仍存在不足,而中等规模模型已能够生成语义较为完整的图像。这一现象表明,尽管小模型在效率上取得进展,但在多模态复杂任务中仍对模型规模存在一定依赖。

  ▲Willison 以“骑自行车的鹈鹕”对该模型从 2B 到 4B 再到 26B-A4B 的测试

  Willison 提到,该系列模型已不仅限于文本处理,还支持图像及视频(以帧序列形式)输入与音频。其中,E2B 与 E4B 等小参数模型已具备语音理解能力。不过,从实际开发环境来看,这些能力尚未完全落地,本地推理框架对音频等输入形式的支持仍在完善过程中。

  Hugging Face 在 Gemma 4 技术解读中指出,与以往主要依赖云端部署的超大模型不同,Gemma 4 系列覆盖从 2B 到 31B 的多种参数规模,使其既可应用于数据中心,也能够运行在本地设备乃至边缘硬件上,体现出模型向“端侧可用”的发展趋势。

  Gemma 4 通过结构优化与机制创新,使小参数模型在保持资源消耗可控的前提下实现能力提升。以 E2B、E4B 为代表的小模型,不仅支持多模态输入,还通过结构优化提升参数利用效率,使其在保持较低资源消耗的同时具备较强任务能力。

  五、编程、高难度推理表现,接近 Qwen3.5

  从 Arena 榜单的对比结果来看,Gemma 4 在文本类任务中的整体能力较上一代实现了全面提升。无论是在写作、编程、复杂指令执行,还是多轮对话与长文本理解等场景中,其表现均明显优于 Gemma 3 和 Gemma 2,并在多个维度接近当前开源模型的第一梯队。

  具体来看,Gemma 4 在“专家级文本理解”和“代码生成”等高难度任务上提升尤为显著,同时在创意写作、复杂提示处理等场景中也表现出更稳定的输出质量。这种全维度外扩的能力曲线,意味着该模型不再只在个别任务上优化,而是在通用文本能力上实现整体提升。

  ▲Gemma 系列模型在 Arena 文本类别排名对比(图源:Arena.ai)

  根据独立 AI 评测媒体 ai.rs 对 Gemma 4、Qwen 与 Llama 的对比评测分析,此次升级被认为是开源模型领域“单代提升幅度最大的一次”,其进步并非渐进式优化,而是跨越式跃升。

  尤其在编程能力上,Gemma 4 的 Codeforces ELO 评分相较上一代 Gemma 3 的 110 分(接近勉强可用水平),大幅提升至 2150 分(接近竞技编程专家级)。

  ▲Gemma 4 编码能力测试(图源:ai.rs)

  ai.rs 进一步指出,在高难度推理与代码生成等关键任务上,Gemma 4 整体表现达到当前开源模型中的领先水平。

  独立 AI 基准测试机构 Artificial Analysis 发布的 GPQA Diamond 排行榜显示,谷歌 Gemma 4 31B 模型在高难度科学推理基准上取得 85.7% 的准确率,位列榜单前列,与 Qwen3.5 27B(85.8%)表现接近。

  该基准包含 198 道由博士级专家编写的“防搜索”问题,涵盖生物、化学和物理领域,要求模型具备真正的研究生级科学推理能力,而非依赖外部知识检索。相比之下,人类领域专家的平均准确率约为 65%。

  值得注意的是,Gemma 4 系列在参数效率上表现出色:其 26B 和 31B 变体在得分与参数量的对比图中落入高效象限,证明 Gemma 4 以相对较小的参数规模实现了高性能。

▲GPQA Diamond 基准测试结果(柱状图)及得分与参数量关系(散点图)(图源:Artificial Analysis)

  结语:从“能用”到“可部署”, 效率、成本与生态的综合较量

  从此次 Gemma 4 的发布来看,其意义并不只在于单一指标的提升,而是性能、部署方式与授权策略的同步变化。Gemma 4 一方面通过架构优化提升参数利用效率,小模型能力持续逼近中等规模模型,另一方面多模态能力与本地部署能力同步推进,在部分场景下减少对云端算力的依赖。

  从更宏观的视角来看,开源大模型竞争已不再局限于性能指标,而是转向效率、成本与生态的综合较量。谁能在“好用、可部署、可扩展”之间取得平衡,谁才更有可能在下一阶段占据主导地位。