作者王奕昕
编辑邓咏仪
Meta 发布最新的开源大模型 Llama 3.1 还不到一天,法国 AI 初创公司 Mistral 就来踢馆——7 月 24 日,Mistral 发布了其全新的旗舰模型 Large 2。
Mistral AI 是一家成立刚满一年的法国 AI 初创公司,也是截至目前欧洲范围内资金最充足、最有竞争力的 AI 玩家,其核心成员来自 Google DeepMind 等顶尖 AI 机构,比如联创 Mensch 就是对 Chinchilla 等大模型论文的作者,提出了包括 Scaling Laws(缩放法则)在内的核心技术。
2023 年 6 月成立后仅 4 周,Mistral AI 便靠 6 人团队斩获 1.05 亿欧元融资。公司专注在开源大模型的研发,被法国总统马克龙赞为“新一代欧洲初创企业与美国科技巨头竞争的典范”。
2023 年 12 月,Mistral 曾发布名为 Mistral 8x7B 的开源大模型,有 560 亿参数,效率和表现与 LLaMA-65B 旗鼓相当,在大模型界一炮而红。除此之外,该公司还对标 ChatGPT,推出名为 Le Chat 的多语言对话助手(官网显示仍在测试阶段,需注册并申请测试资格),用于展示公司最新的技术能力。
Mistral 表示,Large 2 在使用 Llama 3.1 405B 不到三分之一的参数,即 1230 亿个参数的情况下,代码生成、数学和推理能力超过了前者,在生成响应时比其他领先的 AI 模型也更简洁,避免了过多的冗长描述。这意味着,Large 2 在成本方面更具优势,开发者在本地运行也更迅速。
和 Meta 的 Llama 3.1 一样,Large 2 也没有上多模态能力,但对话的回应准确度和可靠性上,可以向 Llama“以小博大”。Mistral 表示,模型的幻觉问题是在 Large 2 的训练过程中的重点之一。此外,在指令遵循和对话任务、处理精确指令和长时间、多轮对话方面,Large 2 也有所提升。
Large 2 拥有 128k 上下文长度,可以在单次对话中接收约等于一本 300 页书的字符数。此外,Large 2 还支持多种语言,能够处理包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语,以及 80 种代码语言。
图源:Mistral 官网
需要指出的是,Mistral 的模型并非传统意义上的开源模型,商用需付费。
目前,Large 2 已经进驻了 Google、Amazon、Azure 和 IBM 的平台,为用户提供使用。用户也可以在 Mistral 的 La Plateforme(简化 AI 应用开发的综合平台,提供预训练模型、数据处理工具和 API 接口)上通过“mistral-large-2407”体验,或在 Le Chat 上免费测试。
Mistral 于今年 6 月完成B轮融资,共筹集了 6.4 亿美元,估值达 60 亿美元。此轮融资由 General Catalyst 领投,投资者还包括光速创投、安德森·霍洛维茨、英伟达、三星风险投资公司和 IBM 等。
Mistral AI 目前约有 60 名员工,其中 45 名在法国,10 名在美国,5 名在英国。据《金融时报》报道,约四分之三的员工从事产品开发和研究工作。