克雷西发自凹非寺
量子位公众号 QbitAI
OpenAI“双 12”刚进行到第二天,就把大模型圈搅得好不热闹!
一边是 Meta 没预告就发布了Llama 3.3,70B 版本就能实现以前 405B 的性能。
另一边谷歌的Gemini也上线了新的实验版模型,再一次登上大模型竞技场榜首。
有网友感叹,o1、Llama 3.3 和新版 Gemini 接连发布,马斯克的 Grok3 也要来,还有 GPT-4.5 初露端倪……这简直是最棒的一个圣诞季。
Llama 3.3:70B 实现 405B 效果
Llama 3.3 目前只有 70B 一个型号。
但在指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,水平都超过了七月份发布的 Llama 3.1 405B。
在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,成绩也和 Llama 3.1 405B 比较接近。
而在工具使用(BFCL)上,和 405B 的差距则显得稍大一些。
不过,Llama 3.3 的使用成本要比 Llama 3.1 405B 低得多。
虽然 Llama 本身是免费的,但是各个大模型平台的服务价格也可以作为衡量成本的一个参考。
在 Meta 合作的平台当中,Llama 3.3 最便宜的价格是 0.1/0.4 美元每百万输入/输出 Token。
而 Llama 3.1 405B,则是 1 美元每百万输入 token,是 Llama 3.3 的 10 倍,输出 token 为 1.8 美元,是 Llama 3.3 的 4.5 倍。
Meta 生成式 AI 团队领导者 Ahmad Al-Dahle 表示,Llama 3.3 能用 70B 实现 405B 的效果,主要是“运用了后训练技术的最新进展”,并点名其中包括在线偏好优化(online preference optimization)。
Meta AI 官方账号也提到,Llama 3.3 的进步归功于新的对齐过程和在线强化学习技术的进步。
目前,Llama 3.3 的模型权重已在官网和 Hugging Face 上开放下载。
Gemini 迎来周岁生日
Gemini 1206 上线的这天,刚好是 Gemini 的一周岁生日。
不过,从节奏和以日期命名的方式来看,Gemini 更像是一次例行更新(上一个版本是 1121)。
当然成绩还是很不错的,直接登上了 lmsys 大模型竞技场的榜首。
而且不只是总成绩夺冠,困难提示词、代码、数学、创意写作等各个单项排名也都是第一。
实际上,Gemini 此前有个 1114 版本,也当了一周的“榜一大哥”,后来被更新的 GPT-4o 给比了下去。
现在的最新版本,又让 Gemini 重新回到了榜单上的王座。
此外,谷歌 AI Studio 产品负责人(原 OpenAI 开发者社区主管)Logan 介绍,Gemini 1206 拥有 2 百万 token 的上下文窗口,目前可通过谷歌 AI Studio 和 Gemini API 免费使用。
谷歌首席科学家Jeff Dean表示,取得这样的成绩是对 Gemini 生日最好的庆祝方式。
不过也有网友给谷歌泼了盆冷水,表示 o1 还没出现在这个榜单上,而且 GPT-4.5 就要来了,谷歌第一的位置恐怕很快又会被 OpenAI 夺走。
One More Thing
除了谷歌和 Meta,马斯克 xAI 也被盛传即将发布 Grok 3。
有网友发现,正在测试的 Grok 2 mini 消失了,认为这是要发 Grok 3 的征兆。
除了对 Grok 3 的猜测,还有一条更确定的消息——此前要充会员才能用的 Grok,现在可以免费用了。
不过免费用户用量比较有限,每两小时只能处理 10 条消息,而图片分析一天只能处理三张。
有意思的是,我们试了试询问 Grok 自己,它也表示 Grok 3 计划在这个月上线。
但抓马的是,点进后面引用的消息源,发现这名博主也是问 Grok 之后发的帖子……
那么,在这个发布密集的十二月,你最钟意或者最期待哪一款产品呢?
参考链接:
[1]https://x.com/AIatMeta/status/1865079067390956006