欧洲黑马Mistral Medium 3:跑分亮眼,实测翻车?

日期:2025-05-08 17:41:08 / 人气:8


在欧洲AI领域,一家名为Mistral的初创公司近日动作频频。他们刚刚推出了一款定价远超DeepSeek V3的模型——Mistral Medium 3,还宣称其性能接近甚至达到Claude Sonnet 3.7的水平。如此高性价比的模型,本应备受期待,然而在实际测试中,却遭遇了滑铁卢,甚至有网友建议不必下载,以免浪费流量和硬盘空间。这究竟是怎么回事呢?

高调发布,亮点满满
就在不久前,Mistral AI兴奋地发布了最新多模态模型Mistral Medium 3。该公司宣称,这款模型性能接近Claude Sonnet 3.7,成本却比DeepSeek V3还低,性价比堪称“拉满”。

Mistral官方博客列出了该模型的核心亮点。其一,它实现了顶尖性能、成本降低至原来的八分之一以及更易于部署的完美平衡,能加速企业应用。其二,在代码编写和多模态理解等专业应用场景中表现出色。其三,提供了支持混合云部署、本地部署以及在VPC内部署等一系列企业功能,还包括定制化后训练以及集成到企业工具和系统中。

目前,Mistral Medium 3 API已在Mistral La Plateforme和Amazon Sagemaker上线,并将很快登陆IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。

性能对标巨头,成本优势显著
Mistral Medium 3在性能与成本的平衡上表现突出。在各项基准测试中,其性能达到甚至超过Claude Sonnet 3.7的90%,每百万Token的输入成本仅为0.4美元,输出成本为2美元,成本显著降低。而且,它超越了Llama 4 Maverick和Cohere Command A等领先的开源模型以及企业模型。无论是通过API使用还是自主部署,其成本都比DeepSeek V3低。此外,它还能部署在任何云上,包括四个GPU及以上的自托管环境。

在顶级性能方面,Mistral Medium 3旨在成为顶尖模型,在编码和STEM任务中表现突出,性能直逼规模更大、速度更慢的竞争对手。从官方给出的表格来看,它在性能上基本超越Llama 4 Maverick和GPT - 4o,接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

除了学术基准,Mistral还公布了第三方人工评估结果。在编码领域,Mistral Medium 3表现出色,在各个方面都比其他竞争对手提供了更好的性能。

专为企业级应用打造
Mistral Medium 3在企业级应用方面的能力也优于其他SOTA模型。在企业面临通过API进行微调,还是从零开始自部署并定制模型行为的艰难抉择时,它提供了一条将智能全面集成到企业系统中的途径。

为此,Mistral推出了由Mistral Medium 3模型驱动的Le Chat Enterprise,这是一款面向企业的聊天机器人服务。它提供AI智能体构建工具,并将Mistral的模型与Gmail、Google Drive和SharePoint等第三方服务整合,有望解决企业面临的AI挑战,如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等问题,为所有组织工作提供统一的AI平台。而且,Le Chat Enterprise很快将支持MCP协议,这是Anthropic提出的连接AI与数据系统和软件的标准。

此外,Mistral透露,虽然Mistral Small和Mistral Medium已经发布,但在未来几周内,他们还有“大”计划,即推出Mistral Large。鉴于Mistral Medium性能已远胜Llama 4 Maverick等顶尖开源模型,Mistral Large的性能更加令人期待。

网友实测:期望落空
然而,这款被寄予厚望的模型,在网友实测中却状况百出。号称超越Claude Sonnet 3.7的90%,真的有那么强吗?

媒体和网友们立刻展开了实测。在基于《纽约时报》Connections栏目词汇分类题的评测中,Medium 3处于倒数位置,几乎难以寻觅其踪迹。在全新的100题测评中,它也未能排进前排模型之列。

有人测试后发现,它的写作能力没有明显进步,在LLM评测中虽处于帕累托前沿,但在实际写作任务里,内容覆盖大部分要点,却格式不正确,评分与DeepSeek V3 (新) 和Claude 3.7 Sonnet相近,不如GPT - 4.1和Gemini 2.5 Pro。

在代码编写方面,简单编码任务(Next.js TODO应用)中,它生成了简洁明了的回复,评分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多,但逊于DeepSeek V3 (新) 和GPT - 4.1;复杂编码任务(基准测试可视化)中,产生的平均结果与Gemini 2.5 Pro和DeepSeek V3(新)相似,不如GPT - 4.1、o3和Claude 3.7 Sonnet。

知名大佬「karminski - 牙医」实测后认为,它的性能并不像官方吹嘘的那么强,甚至建议不必下载,以免浪费流量和硬盘空间。

Mistral Medium 3这款模型,从高调发布时的耀眼光环,到实测时的表现不佳,着实让人感到意外。究竟是实测方法存在问题,还是模型本身存在尚未发现的短板,还有待进一步观察。

作者:顺盈注册登录平台




现在致电 8888910 OR 查看更多联系方式 →

顺盈注册登录平台 版权所有