Google低配版“Gemini ”Gemma来了!相当于OpenAI把GPT-3开源了

  几家巨头之间的大模型竞争,越来越像打牌了。你出完炸弹我出炸弹。

  这不,又一个深夜炸弹。

  2 月 21 日,在与闭源的 OpenAI 打得火热的同时,Google 突然加入了开源的战局。北京时间夜间 Google 突然宣布,开源了一个新的模型系列 Gemma,这个模型使用了与它最强的 Gemini 同源的技术,并且在一系列的标准测试上秒杀了几款今天最热门的开源模型。

  怎么理解这个动作的重要性呢?你可以粗暴的理解为:

  这有点像现在正在训练更强大的 GPT-5 的 OpenAI,把 GPT3 的低参数版给开源了。(前几天 Sam Altman 被问过这个问题,你们是否会在未来把 GPT3 开源,他没有直接回答。现在看来 Google 针对性很强啊。)

  (X上一张有意思的图)

  根据 Google 官方对 Gemma 的介绍,它的基本信息如下:

  Gemma 是谷歌开源的一个大型语言模型,而非像 Gemini 那样是多模态的,它基于与 Gemini 相同的技术构建,但完全公开并允许商用授权。

  Gemma 模型有两个主要版本,分别是 Gemma 7B(70 亿参数)和 Gemma 2B(20 亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了 6 万亿 tokens。

  Gemma 模型的特点包括:

  • 架构细节:Gemma 模型具有不同的参数规模,Gemma-2B 有 18 层,d_model 为 2048,而 Gemma-7B 有 28 层,d_model 为 3072。这些模型还具有不同的前馈隐藏维度、头数和 KV 头数,以及词汇量。

  • 新技术:Gemma 采用了一些新技术,如 Multi-Query Attention、RoPE Embeddings、GeGLU 激活函数以及 Normalizer Location,这些技术有助于提高模型的性能。

  • 评测结果:谷歌官方宣称 Gemma 模型在 70 亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。

  • 开源情况:Gemma 模型遵循一个自定义的开源协议,允许商业使用。

  发布完,Jeff Dean 就对这个系列模型划了重点:

  Gemma-7B 模型在涵盖通用语言理解、推理、数学和编程的 8 项基准测试中,性能超过了广泛使用的 Llama-2 7B 和 13B 模型。它在数学/科学和编程相关任务上,通常也超过了 Mistral 7B 模型的性能。

  Gemma-2B IT 和 Gemma-7B IT 这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于 Mistral-7B v0.2 指令模型。 特别是 Gemma-7B IT 模型在遵循指令方面也表现更佳。

  (有意思的是,在 Google 晒出的成绩对比中,阿里的千问背后的模型 Qwen 系列表现也很亮眼)

  • 我们也发布了一个负责任的生成性人工智能工具包(Responsible Generative AI Toolkit),它为负责任地使用像 Gemma 模型这样的开放模型提供了资源,包括:

  • 关于设定安全政策、安全调整、安全分类器和模型评估的指导。

  • 学习可解释性工具(Learning Interpretability Tool,简称 LIT),用于调查 Gemma 的行为并解决潜在问题。

  • 一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重: Gemma 2B 和 Gemma 7B 。 每个版本都提供了预训练和指令调整的变体。

  • 我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生 Keras 3.0 支持的 JAX、PyTorch 和 TensorFlow。

  • 提供了即用型的 Colab 和 Kaggle 笔记本,以及与流行的工具如 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 的集成,使得开始使用 Gemma 变得简单。

  • 预训练和指令调整的 Gemma 模型可以在您的笔记本电脑、工作站或 Google Cloud 上运行,并且可以轻松部署在 Vertex AI 和 Google Kubernetes Engine(GKE)上。

  • 在多个 AI 硬件平台上的优化确保了行业领先的性能,包括 NVIDIA GPU 和 Google Cloud TPUs。

  • 使用条款允许所有规模的组织负责任地进行商业使用和分发。

  可以看到 Jeff Dean 和 Google 这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病 Close AI 且被外界质疑安全性保障的 OpenAI。

  现在,憋坏了的 Google 正式四面开战了。未来它将用 Gemma 对抗 Llama,用 Gemini 对抗 GPT。

  无论是开源还是闭源,竞争越来越焦灼了。

  关于 Gemma

  Gemma 这个名字本身源自拉丁语,意思是“宝石”。分为两种规格——Gemma 2B 和 Gemma 7B,由 Google DeepMind 和 Google 的其他团队开发,其灵感来自 Gemini。此外,连同 Gemma 一起发布的还有一些相关的开发者工具。

  哪里可以使用 Gemma?

  你可以在个人计算机、工作站、Google Cloud 上使用 Gemma 模型。您可以轻松部署 Gemma 模型到 Vertex AI 和 Google Kubernetes Engine (GKE) 上。另外,Gemma 模型也支持在 NVIDIA GPU 和 Google Cloud TPU 等多种 AI 硬件平台上优化运行。无论您是在开发、研究还是商业用途中,都可以使用 Gemma 模型。Gemini 模型的技术和基础设施组件也与 Gemma 模型共享,使得 Gemma 2B 和 7B 在其尺寸方面表现出色,超越了其他开放模型。你可以通过 ai.google.dev/gemma 了解更多信息并访问快速入门指南。

  Google 如何优化 Gemma 在不同 AI 硬件平台上的性能?

  Google 与 NVIDIA 合作,针对 NVIDIA GPU 优化了 Gemma 模型,确保在数据中心、云端到本地 RTX AI PC 上都能提供行业领先的性能。同时,Gemma 也针对 Google Cloud TPU 进行了优化。

  Gemma 提供哪些大小的模型?

  Gemma 提供了 Gemma 2B 和 Gemma 7B 两种模型。较小的模型(如 2B)适合于需要较低计算资源的应用,而较大的模型(如 7B)则能提供更高的性能和准确度,适用于复杂的 AI 应用。

  Gemma 模型在技术基准上超越了哪些指标,与其他开放模型相比如何?

  Gemma 模型在关键基准测试上超越了其他更大模型,具体的性能指标可参见下方的评测报告。

  Gemma 的相关评测信息(来自官方)

  MMLU

  MMLU 基准测试是一项测试,用于衡量大型语言模型在预训练期间所获得的知识广度和问题解决能力

  HellaSwag

  HellaSwag 基准测试挑战语言模型理解和运用常识推理的能力,通过选择故事的最合乎逻辑的结局。

  PIQA

  PIQA 基准测试检验语言模型理解和运用日常物理常识的能力,通过回答关于日常物理互动的问题。

  SIQA

  SIQA 基准测试评估语言模型对社交互动和社交常识的理解,通过提问关于人们行为及其社交含义的问题。

  Boolq

  BoolQ 基准测试了语言模型回答自然发生的(在未提示和无约束的情况下生成的)是/否问题的能力,测试模型在真实世界自然语言推理任务中的表现能力。

  Winogrande

  Winogrande 基准测试了语言模型解决具有二元选项的模棱两可的填空任务的能力,需要通用常识推理。

  CQA

  CQA 基准评估了语言模型在多项选择问答上的表现,需要不同类型的常识知识。

  OBQA

  OBQA 基准评估了语言模型在多步推理、常识知识和丰富文本理解方面执行高级问答的能力,模拟了开放式书面考试。

  ARC-e

  ARC-e 基准测试了语言模型在真实的小学级别多项选择科学问题上的高级问答能力。

  ARC-c

  ARC-c 基准是 ARC-e 数据集的一个更专注的子集,只包含常见(检索基础和词共现)算法回答错误的问题。

  TriviaQA

  TriviaQA 基准测试了阅读理解能力,包括问题-答案-证据三元组。

  HumanEval

  HumanEval 基准通过评估语言模型的代码生成能力,检查其解决编程问题的解决方案是否通过了功能单元测试。

  MBPP

  MBPP 基准测试了语言模型解决基本 Python 编程问题的能力,重点关注基本编程概念和标准库的使用。

  GSM8K

  GSM8K 基准测试了语言模型解决常需要多步推理的小学级数学问题的能力。

  MATH

  MATH 基准评估了语言模型解决复杂数学问题的能力,需要推理、多步问题解决和对数学概念的理解。

  AGIEval

  AGIEval 基准通过使用源自真实世界考试的问题来测试语言模型的智能,这些考试旨在评估人类的智力能力(大学入学考试、法律考试等)。

  BBH

  BBH(BIG-Bench Hard)基准专注于被认为超出当前语言模型能力范围的任务,测试它们在各种推理和理解领域的极限。

  Gemma 7B Vs Mistral 7B,实际上手

  先直接试试 Gemma 7B

  能知道问题之间的相关性,但对于 2008 年电影票房这种需要搜索的内容,就开始胡言乱语了

  ⬆ 能准确的将德语中的 "Regisseur" 改为了 "Regisseurin"(从男导演换成女导演),以及冠词“einen”和“der”也都做了相应的调整。

  同样的问题, 交给 Mistral 7B

  对比很明显,没能完全执行 Prompt 的内容,出的内容也不对。