国思软件 - Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

　　4 月 7 日，Meta 公司新发布的 Maverick 的新旗舰 AI 模型，在 LM Arena 测试中取得了第二名的成绩。然而，这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出，Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

　　Meta 在其公告中明确提到，参与 LM Arena 测试的 Maverick 是一个「实验性聊天版本」。而根据官方 Llama 网站上公布的信息，Meta 在 LM Arena 的测试中所使用的实际上是「针对对话性优化的 Llama 4 Maverick」。这表明，该版本经过了专门的优化调整，以适应 LM Arena 的测试环境和评分标准。

　　事实上，研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如，LM Arena 版本似乎更倾向于使用大量的表情符号，并且给出的答案往往冗长且拖沓。

　　Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。（来源：IT 之家）

Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

我们的产品

相关链接

关于我们

联系我们