苹果为什么要用「小模型」?

  新智元报道

  编辑:alan

  WWDC 2024 上,苹果推出了 Apple Intelligence,向大家展示了如何开发、训练出功能强大、快速且节能的模型,如何根据特定用户需求进行微调,以及如何评估模型的性能。

  在 WWDC 2024 上,苹果重新定义了 AI——Apple Intelligence。

  这是一款深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。

  与其他科技大厂不同的是,「苹果牌」AI 并没有奉行「越大越好」的宗旨。

  相反,苹果的态度更加务实,优先考虑用户体验,更强调 AI 模型的定制化。

  将生成式 AI 无缝融入操作系统,——从某种意义上来说,这是一种非常「苹果」的做法。

  Apple Intelligence 由多个功能强大的生成模型组成,这些模型专门用于用户的日常任务,可以即时适应用户当前的活动。

  Apple Intelligence 内置的基础模型针对用户体验进行了微调,例如编写和优化文本、摘要、确定通知的优先级、为对话创建有趣的图像,以及简化跨 App 的交互。

  苹果倾向于利用设备端的小模型搞定这些事情,当然用户也可以选择使用 ChatGPT 等第三方的服务,但这时数据方面的责任就跟苹果没有关系了。

  苹果着重介绍了其中两个模型:一个约 30 亿参数的设备端语言模型,以及一个更大的基于服务器的语言模型(可通过私有云计算在苹果服务器上运行)。

  Keep Small

苹果基础模型概览

  预训练

  苹果的基础模型是在 AXLearn 框架上训练的。

  AXLearn 是苹果在 2023 年发布的一个开源项目,它建立在 JAX 和 XLA 之上,使苹果能够在各种训练硬件和云平台上以高效率和可扩展性训练模型,包括 TPU、云端和本地 GPU。

  苹果结合使用数据并行、张量并行、序列并行和完全分片数据并行 (FSDP)来沿数据、模型和序列长度等多个维度扩展训练。

  苹果使用网络爬虫 AppleBot 来收集公开可用的数据,——如果 Web 发布者不希望自己的内容被 Apple Intelligence 用于训练,苹果也提供了各种粒度的控制方案。

  苹果表示,在训练基础模型时,从不使用用户的私人个人数据或用户交互,并且苹果应用过滤器来删除互联网上公开的个人身份信息(比如社会保险和信用卡号)。

  除了过滤之外,苹果还通过数据提取、重复数据删除和基于模型的分类器的应用,以识别高质量的文档。

  后处理

  众所周知,数据质量对于模型的成功至关重要。

  苹果在训练管道中使用混合数据策略,结合人工注释和合成数据,并执行彻底的数据管理和过滤程序。

  苹果在后处理阶段开发了两种新颖的算法:

1. 拒绝抽样微调算法(rejection sampling fine-tuning algorithm); 2. 基于人类反馈的强化学习(RLHF)算法,采用镜像下降策略优化和留一法优势估计器(leave-one-out advantage estimator)。

  这两种算法可以显著提高模型的指令遵循质量。

  优化

  除了确保生成模型具有强大功能外,苹果还使用了一系列创新技术在设备上和私有云上对其进行优化,以提高速度和效率。

  设备端模型和服务器模型都使用分组查询注意力(grouped-query-attention),来优化其推理性能。

  苹果使用共享的输入和输出词汇表,来降低内存需求和推理成本,保证了共享嵌入张量的映射没有重复。

  设备端模型使用 49K 的词汇大小,而服务器模型使用 100K 的词汇大小。

  对于设备端推理,苹果使用 low-bit palletization,来满足必要的内存、功耗和性能要求。

  为了保持模型质量,苹果开发了一个使用 LoRA 适配器的新框架,混合使用 2 比特和 4 比特的配置策略(平均每个权重 3.5 比特),以实现与未压缩模型相同的精度。

  此外,苹果还使用交互式模型延迟和功耗分析工具 Talaria 来更好地指导每个操作的比特率选择。

  利用激活量化和嵌入量化,可以在苹果的神经引擎上实现高效的键值缓存(KV cache)更新。

  通过上面的这些优化,iPhone 15 Pro 能够达到约 0.6 毫秒的延迟,以及每秒 30 个 token 的生成速率。

  适配器

  苹果的基础模型针对用户的日常活动进行了微调,可以动态地专注于手头的任务。

  做法是将小型神经网络作为模块(适配器,adapter),插入到预训练模型的各个层中,以实现针对特定任务的微调。

  此外,苹果调整了注意力矩阵、注意力投影矩阵和前馈网络中的全连接层,以适应 Transformer 架构的的解码层。

  通过仅微调适配器层,基本预训练模型的原始参数保持不变,从而保留模型的一般知识,同时又能支持特定任务。

  Apple Intelligence 包含一组广泛的适配器,这是扩展基础模型功能的有效方法。

  苹果使用 16 位表示适配器参数的值,对于 30 亿个参数的设备模型,16 级适配器的参数通常需要 10 兆字节。

  适配器模型可以动态加载、临时缓存在内存中并进行交换,保证了操作系统的响应能力。

  性能评估

  因为用户体验是最高优先级,所以在对模型进行基准测试时,苹果专注于人工评估。

  摘要

  苹果的训练数据基于从更大的服务器模型生成的合成摘要,并通过拒绝抽样策略进行过滤,仅保留高质量的摘要。

  为了评估特定于产品的摘要,这里使用一组 750 个响应,针对每个用例进行了仔细抽样。

  评估数据集涵盖了苹果的产品功能在生产中可能面临的各种输入,包括不同内容类型和长度的单个文档和堆叠文档的分层组合。

  另外,评估摘要功能也要考虑到一些固有风险,比如,模型偶尔会忽略掉一些重要的细节。

  根据评分者在五个维度上的打分,摘要被分类为好、中、差。

  实验结果表明,与同类模型相比,带有适配器的模型可以生成更好的摘要。

  并且在超过 99% 的针对性对抗性示例中,摘要适配器并没有放大敏感内容。

  基础功能

  对于设备端和服务器模型的一般功能,苹果利用一套全面的真实世界提示来评估通用模型的功能。

  这些提示在不同的难度级别上各不相同,涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别。

  将苹果的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)和类似规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行比较。

  实验表明,与大多数竞品相比,苹果的模型更受人工评分师的青睐。

  苹果的 3B 设备端模型性能优于 Phi-3-mini、Mistral-7B 和 Gemma-7B 等大型模型;而苹果的服务器模型也要优于 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo,同时效率更高。

  安全性

  苹果使用一组不同的对抗性提示来测试模型在有害内容、敏感主题和事实性方面的表现。

  测量每个模型的违规率,同样采用人工评估:

  上图显示了在安全提示方面与竞品的 PK。人工评分员发现苹果的回答更安全、更有帮助。

  指令遵循

  为了进一步评估模型,苹果还使用指令跟踪评估(IFEval)基准测试来比较同类模型的能力。

  结果表明,苹果的设备端和服务器模型都比同等规模的开源和商业模型更好地遵循详细说明。

  最后是根据内部总结和作文基准评估模型的写作能力,包括各种写作说明,这些结果不涉及用于特定功能的适配器。

  参考资料:

  https://machinelearning.apple.com/research/introducing-apple-foundation-models