欧洲黑马Mistral Medium 3：跑分亮眼，实测翻车？

日期：2025-05-08 17:41:08 / 人气：352

在欧洲AI领域，一家名为Mistral的初创公司近日动作频频。他们刚刚推出了一款定价远超DeepSeek V3的模型——Mistral Medium 3，还宣称其性能接近甚至达到Claude Sonnet 3.7的水平。如此高性价比的模型，本应备受期待，然而在实际测试中，却遭遇了滑铁卢，甚至有网友建议不必下载，以免浪费流量和硬盘空间。这究竟是怎么回事呢？

高调发布，亮点满满
就在不久前，Mistral AI兴奋地发布了最新多模态模型Mistral Medium 3。该公司宣称，这款模型性能接近Claude Sonnet 3.7，成本却比DeepSeek V3还低，性价比堪称“拉满”。

Mistral官方博客列出了该模型的核心亮点。其一，它实现了顶尖性能、成本降低至原来的八分之一以及更易于部署的完美平衡，能加速企业应用。其二，在代码编写和多模态理解等专业应用场景中表现出色。其三，提供了支持混合云部署、本地部署以及在VPC内部署等一系列企业功能，还包括定制化后训练以及集成到企业工具和系统中。

目前，Mistral Medium 3 API已在Mistral La Plateforme和Amazon Sagemaker上线，并将很快登陆IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。

性能对标巨头，成本优势显著
Mistral Medium 3在性能与成本的平衡上表现突出。在各项基准测试中，其性能达到甚至超过Claude Sonnet 3.7的90%，每百万Token的输入成本仅为0.4美元，输出成本为2美元，成本显著降低。而且，它超越了Llama 4 Maverick和Cohere Command A等领先的开源模型以及企业模型。无论是通过API使用还是自主部署，其成本都比DeepSeek V3低。此外，它还能部署在任何云上，包括四个GPU及以上的自托管环境。

在顶级性能方面，Mistral Medium 3旨在成为顶尖模型，在编码和STEM任务中表现突出，性能直逼规模更大、速度更慢的竞争对手。从官方给出的表格来看，它在性能上基本超越Llama 4 Maverick和GPT - 4o，接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

除了学术基准，Mistral还公布了第三方人工评估结果。在编码领域，Mistral Medium 3表现出色，在各个方面都比其他竞争对手提供了更好的性能。

专为企业级应用打造
Mistral Medium 3在企业级应用方面的能力也优于其他SOTA模型。在企业面临通过API进行微调，还是从零开始自部署并定制模型行为的艰难抉择时，它提供了一条将智能全面集成到企业系统中的途径。

为此，Mistral推出了由Mistral Medium 3模型驱动的Le Chat Enterprise，这是一款面向企业的聊天机器人服务。它提供AI智能体构建工具，并将Mistral的模型与Gmail、Google Drive和SharePoint等第三方服务整合，有望解决企业面临的AI挑战，如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等问题，为所有组织工作提供统一的AI平台。而且，Le Chat Enterprise很快将支持MCP协议，这是Anthropic提出的连接AI与数据系统和软件的标准。

此外，Mistral透露，虽然Mistral Small和Mistral Medium已经发布，但在未来几周内，他们还有“大”计划，即推出Mistral Large。鉴于Mistral Medium性能已远胜Llama 4 Maverick等顶尖开源模型，Mistral Large的性能更加令人期待。

网友实测：期望落空
然而，这款被寄予厚望的模型，在网友实测中却状况百出。号称超越Claude Sonnet 3.7的90%，真的有那么强吗？

媒体和网友们立刻展开了实测。在基于《纽约时报》Connections栏目词汇分类题的评测中，Medium 3处于倒数位置，几乎难以寻觅其踪迹。在全新的100题测评中，它也未能排进前排模型之列。

有人测试后发现，它的写作能力没有明显进步，在LLM评测中虽处于帕累托前沿，但在实际写作任务里，内容覆盖大部分要点，却格式不正确，评分与DeepSeek V3 (新) 和Claude 3.7 Sonnet相近，不如GPT - 4.1和Gemini 2.5 Pro。

在代码编写方面，简单编码任务（Next.js TODO应用）中，它生成了简洁明了的回复，评分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多，但逊于DeepSeek V3 (新) 和GPT - 4.1；复杂编码任务（基准测试可视化）中，产生的平均结果与Gemini 2.5 Pro和DeepSeek V3（新）相似，不如GPT - 4.1、o3和Claude 3.7 Sonnet。

知名大佬「karminski - 牙医」实测后认为，它的性能并不像官方吹嘘的那么强，甚至建议不必下载，以免浪费流量和硬盘空间。

Mistral Medium 3这款模型，从高调发布时的耀眼光环，到实测时的表现不佳，着实让人感到意外。究竟是实测方法存在问题，还是模型本身存在尚未发现的短板，还有待进一步观察。

作者：顺盈注册登录平台

欧洲黑马Mistral Medium 3：跑分亮眼，实测翻车？

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →