2025年大模型排名，我跑了3000条真实业务数据后发现了几个反直觉的结论

上周我把团队过去三个月积累的客户支持对话全捞了出来，一共3400多条，用当前市面上能调到的12个大模型各跑了一遍。任务不复杂：给定一段客服和用户的对话历史，生成下一步回复。复杂的是评判——得看是否解决了问题、语气是否一致、有没有幻觉。

排名结果跟很多评测榜单对不上。排在前三的是Claude 3.5 Sonnet、新版GPT-4o、还有DeepSeek-V2。Qwen2-72B和Llama 3.1 70B被甩了半条街。Gemini 1.5 Pro在某些语言对上表现不错，但不稳定。我一个做搜索引擎的朋友拿同样这批模型跑RAG评估，排名前十差异大到让我重新审视所谓的“权威榜单”。

这就是今天想聊的：2025年的大模型排名，不能只看LMSYS Chatbot Arena的Elo分。得看你做什么任务、花多少钱、延迟扛不扛得住。

先说你跑的是什么榜

现在主流评级有三大类：

人评榜：Chatbot Arena是典型。靠用户投票，盲测两个模型回答哪个更好。优点是贴近真实对话，缺点是覆盖的场景太宽，拆不开具体能力。 基准榜：MMLU、HumanEval、GSM8K、IFEval这类。每年更新一版，但刷榜现象已经很严重。我这几个月测下来，基准分数高的模型在很多企业实际场景里跌落神坛。比如Agent任务，很多模型基准分刷到飞起，一进生产环境就胡言乱语，工具调用成功率惨不忍睹。 任务榜：这恰恰是2025年值得看的。不是某个机构的，是你自己的。把你最常做的那几类任务列出来，拉一批真实数据，平行跑一次，出来的是什么就是什么。

我们内部做技术选型时列了5个任务维度：

1. 长文本事实抽取（平均输入2700 tokens）

2. 多轮工具调用（3-6步）

3. 代码修复补全

4. 中文客服回复

5. 竞对分析报告撰写

每个任务拉了至少200条真实数据，输出用GPT-4当裁判交叉打分，加上人工抽样复核。

同一批模型在不同任务上像换了个脑子

只说我们测出来的前五名，以及几个出乎意料的：

长文本事实抽取：Claude 3.5 Sonnet断层第一，跟新版GPT-4o拉开的差距肉眼可见。Claude几乎不随便编日期数字，即便缺信息也能很干净地回复“文档未提及”。但有意思的是，如果你去做一个SEO相关的内容生成任务，比如批量产出元描述和Open Graph标记，还得靠Claude对结构化输出的严格遵守。这让我想起之前用Claude跑GEO策略的惨痛经历，有兴趣可以翻Claude SEO优化实战。 多轮工具调用：GPT-4o表现最稳。DeepSeek-V2在这个维度上很能打，尤其在做API参数组合时成功率不输GPT-4o，但价格只有后者的1/7。Qwen2-72B工具调用初看很强，可错误处理逻辑太糟，工具一返回异常就容易死循环——这在实际业务里是大忌讳。 中文客服回复：DeepSeek-V2拿了第一。它那种不亢不卑的语气确实适合客服场景。排在第二的是Qwen2-72B，但Qwen遇到投诉类对话容易过度道歉，人工审核时被标了不少“过度承诺”。 代码修复补全：DeepSeek-V2和Claude 3.5 Sonnet并列第一，侧重点不太一样。Claude改bug更保守，优先保证逻辑不变；DeepSeek会顺便优化代码结构，有几次改出了更简洁的实现，但偶尔引入新的边界bug。 竞对分析报告：这一项所有模型都很糟糕。要么过于泛泛，要么数据编得有模有样。没有模型能稳定生成��们需要的深度分析，最后这块业务我们暂时还是人写框架，AI辅助润色。

从这些结果看，大模型排名根本不存在一个普适版本。即便是同一个模型，新旧 API 版本之间也差很多，比如 GPT-4o 六月份更新后推理加速明显，但长文本上的表现反而略有下降，很多评测榜都没反映这个变化。关于推理延迟的问题我之前专门拆过，把 GPT-4 级别模型的响应从 3 秒压到 800 毫秒做对了哪五件事，具体步骤在大模型推理延迟优化里写了，这里不多展开。

2025年的排名得看三个隐性变量

第一个是上下文窗口的利用效率。模型标称上下文都动辄128k甚至1M，但实际测下来，超过30k tokens之后大部分模型的召回率断崖下跌。只有Claude 3.5 Sonnet和Gemini 1.5 Pro相对稳。Qwen和DeepSeek在64k附近会丢关键信息，而且不是那种显而易见的丢——是答复看起来没问题，但缺了某一条约束，这在合同审查场景里会直接导致事故。

第二个是延迟-成本曲线。我不会只选最强的模型，而是选延迟和成本可接受的范围内最强的模型。比如客服问答，如果800ms内回不来，用户体验就打折扣。这时候DeepSeek-V2的性价比就无比突出。它在我跑的所有任务里，平均延迟比GPT-4o低40%，价格低一个数量级。这对于日均调用量过百万的企业来说不是选择题，是财务题。

第三个是备案与合规。国内业务上了规模就必须走备案模型。北京到现在已经有240多个大模型备案，数量全国第一，这背后意味着什么，不仅仅是政策倾向，更是产业链的信号，我在北京AI大模型备案分析里做过拆解。备案库里的模型选型名单，跟开源社区的热度榜相差挺大，很多在海外榜单上没见过的名字在国内实际业务里用得很广。

两个反直觉结论

第一，大尺寸模型的优势在消退。 年初我们默认必须上70B+参数量的模型，但到了下半年，很多30-40B参数的模型在垂直任务上不输70B，甚至因为推理更快而胜出。模型蒸馏和数据配方的进步，让“大”不再是绝对优势。 第二，端到端评测才有用。 别只看单个能力分数。Agent任务中工具调用+推理+对话管理是一体的，单拆某一项得分高没用。排名的唯一正确姿势，是在你自己的任务链条上从输入到输出完整跑一遍。

今年我基本不看通用排行榜选模型了。会定期拿真实业务数据做一轮横评，更新自己的可用模型池。2025年变数还会加速，新的架构、新的MoE组合、数据飞轮效应的叠加，会让下个月重新跑出来的排名又变一版。但确认清楚自己到底需要什么，比看别人排的榜单重要得多。

2025年大模型排名，我跑了3000条真实业务数据后发现了几个反直觉的结论

先说你跑的是什么榜

同一批模型在不同任务上像换了个脑子

2025年的排名得看三个隐性变量

两个反直觉结论

📖 相关文章

🤖 你的网站能被AI搜索到吗？