国思软件 - 欧洲黑马Mistral Medium 3来了！跑分对标最强Claude，实测大翻车

　　新智元报道

　　编辑：编辑部 HNZ

　　法国初创 Mistral，刚刚推出定价碾压 DeepSeek V3 的模型，而模型性能，却超过 Claude Sonnet 3.7 的 90%。不过在网友们的实测中，它却翻车了？有人建议：不必下载浪费流量和硬盘空间。

　　就在刚刚， Mistral AI 发布了他们最新多模态模型 Mistral Medium 3。

　　Mistral 兴奋地宣称 Mistral Medium 3 的性能接近甚至达到了 Claude Sonnet 3.7 的水平，但成本却比 DeepSeek V3 还低。

　　性价比拉满！

　　在 Mistral 官方的博客中，列出了 Mistral Medium 3 的核心亮点：

　　1. Mistral Medium 3 平衡了：

顶尖性能
成本降低至原来的八分之一
更易于部署，从而加速企业应用

　　2. 模型在代码编写和多模态理解等专业应用场景中表现出色。

　　3. 模型提供一系列企业功能，包括：

支持混合云部署、本地部署以及在 VPC 内部署
定制化后训练
集成到企业工具和系统中

　　Mistral Medium 3 API，现已在 Mistral La Plateforme 和 Amazon Sagemaker 上线，并将很快登陆 IBM WatsonX、NVIDIA NIM、Azure AI Foundry 和 Google Cloud Vertex。

　　完美平衡

　　Mistral Medium 3 在提供前沿性能的同时，成本却降低了一个数量级。

　　例如，在各项基准测试中，Mistral Medium 3 的性能达到甚至超过了 Claude Sonnet 3.7 的 90%，但成本却显著降低（每百万 Token 的输入成本为 0.4 美元，输出成本为 2 美元）。

　　Mistral Medium 3 的性能也超越了领先的开源模型，如 Llama 4 Maverick 和 Cohere Command A 等企业模型。

　　无论是 API 还是自主部署，Mistral Medium 3 的成本都要比 DeepSeek V3 还低。

　　此外，Mistral Medium 3 还可以部署在任何云上，包括四个 GPU 及以上的自托管环境。

　　顶级性能

　　Mistral 表示，Mistral Medium 3 的目标是成为一款性能顶尖的模型，尤其是在编码和 STEM 任务中表现突出，性能直逼那些规模更大、速度更慢的竞争对手。

　　从 Mistral 给出的表中可以看出 Mistral Medium 3 性能已经基本上超越 Llama 4 Maverick 和 GPT-4o，接近 Claude Sonnet 3.7 以及 DeepSeek 3.1 的水平。

　　人工评估结果

　　除了学术基准之外，Mistral 还公布了第三方人工评估，后者更能代表真实世界的用例。

　　可以看到，Mistral Medium 3 在编码领域表现出色，并且在各个方面都比其他竞争对手提供了更好的性能。

　　专为企业级应用打造

　　Mistral Medium 3 在适应企业环境的能力方面优于其他 SOTA 模型。

　　在企业面临通过 API 进行微调，或从零开始自部署并定制模型行为的艰难选择时，Mistral Medium 3 提供了一条将智能全面集成到企业系统中的途径。

　　Mistral 还推出了由 Mistral Medium 3 模型驱动的 Le Chat Enterprise，一款面向企业的聊天机器人服务。

　　它提供了一个 AI 智能体构建工具，并将 Mistral 的模型与 Gmail、Google Drive 和 SharePoint 等第三方服务整合。

　　这就可以解决企业面临的 AI 挑战，如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等，为所有组织工作提供统一的 AI 平台。

　　Le Chat Enterprise 很快将支持 MCP 协议，这是 Anthropic 提出的连接 AI 与数据系统和软件的标准。

　　One more thing…

　　Mistral 还在博客中透露，虽然 Mistral Small 和 Mistral Medium 都已经发布，但在未来几周内，他们有一个「大」计划，也就是 Mistral Large。

　　他们表示刚发布的 Mistral Medium 性能已经远胜 Llama 4 Maverick 等顶尖开源模型，Mistral Large 的性能更加值得期待。

　　网友实测：就这？

　　号称超越 Claude Sonnet 3.7 的 90%，Medium 3 果然有这么强吗？

　　媒体和网友们立刻展开了实测。

　　在基于《纽约时报》Connections 栏目词汇分类题的评测中，Medium 3 处于倒数的位置，几乎找不到它。

　　在全新的 100 题测评中，它在前排模型中也排不上号。

　　有人测试 Medium 3 后表示，它的写作能力还是老样子，没啥进步。不过在 LLM 评测中，它倒是处在帕累托前沿。

　　而 Zhu Liang 测试后发现，模型在代码编写和文本生成方面表现都很扎实，在这两项评测中都跻身前五。

　　在简单编码任务（Next.js TODO 应用）中：

它生成了简洁明了的回复
评分和 Gemini 2.5 Pro、Claude 3.5 Sonnet 差不多
逊于 DeepSeek V3 (新) 和 GPT-4.1

　　在复杂编码任务（基准测试可视化）中：

产生的平均结果与 Gemini 2.5 Pro 和 DeepSeek V3（新）相似
不如 GPT-4.1、o3 和 Claude 3.7 Sonnet

　　在写作上：

它的内容覆盖了大部分要点，但格式不正确
评分与 DeepSeek V3 (新) 和 Claude 3.7 Sonnet 相近
不如 GPT-4.1 和 Gemini 2.5 Pro

　　知名大佬「karminski-牙医」实测后发现，它的性能并不像官方吹得那么强。

　　建议我们不必下载，浪费流量和硬盘空间了。

　　参考资料：

　　https://techcrunch.com/2025/05/07/mistral-claims-its-newest-ai-model-delivers-leading-performance-for-the-price/

　　https://venturebeat.com/ai/mistral-comes-out-swinging-for-enterprise-ai-customers-with-new-le-chat-enterprise-medium-3-model/

　　https://mistral.ai/news/mistral-medium-3

欧洲黑马Mistral Medium 3来了！跑分对标最强Claude，实测大翻车

我们的产品

相关链接

关于我们

联系我们