上周我把团队过去三个月积累的客户支持对话全捞了出来,一共3400多条,用当前市面上能调到的12个大模型各跑了一遍。任务不复杂:给定一段客服和用户的对话历史,生成下一步回复。复杂的是评判——得看是否解决了问题、语气是否一致、有没有幻觉。
排名结果跟很多评测榜单对不上。排在前三的是Claude 3.5 Sonnet、新版GPT-4o、还有DeepSeek-V2。Qwen2-72B和Llama 3.1 70B被甩了半条街。Gemini 1.5 Pro在某些语言对上表现不错,但不稳定。我一个做搜索引擎的朋友拿同样这批模型跑RAG评估,排名前十差异大到让我重新审视所谓的“权威榜单”。
这就是今天想聊的:2025年的大模型排名,不能只看LMSYS Chatbot Arena的Elo分。得看你做什么任务、花多少钱、延迟扛不扛得住。
先说你跑的是什么榜
现在主流评级有三大类:
人评榜:Chatbot Arena是典型。靠用户投票,盲测两个模型回答哪个更好。优点是贴近真实对话,缺点是覆盖的场景太宽,拆不开具体能力。 基准榜:MMLU、HumanEval、GSM8K、IFEval这类。每年更新一版,但刷榜现象已经很严重。我这几个月测下来,基准分数高的模型在很多企业实际场景里跌落神坛。比如Agent任务,很多模型基准分刷到飞起,一进生产环境就胡言乱语,工具调用成功率惨不忍睹。 任务榜:这恰恰是2025年值得看的。不是某个机构的,是你自己的。把你最常做的那几类任务列出来,拉一批真实数据,平行跑一次,出来的是什么就是什么。我们内部做技术选型时列了5个任务维度:
1. 长文本事实抽取(平均输入2700 tokens)
2. 多轮工具调用(3-6步)
3. 代码修复补全
4. 中文客服回复
5. 竞对分析报告撰写
每个任务拉了至少200条真实数据,输出用GPT-4当裁判交叉打分,加上人工抽样复核。
同一批模型在不同任务上像换了个脑子
只说我们测出来的前五名,以及几个出乎意料的:
长文本事实抽取:Claude 3.5 Sonnet断层第一,跟新版GPT-4o拉开的差距肉眼可见。Claude几乎不随便编日期数字,即便缺信息也能很干净地回复“文档未提及”。但有意思的是,如果你去做一个SEO相关的内容生成任务,比如批量产出元描述和Open Graph标记,还得靠Claude对结构化输出的严格遵守。这让我想起之前用Claude跑GEO策略的惨痛经历,有兴趣可以翻Claude SEO优化实战。 多轮工具调用:GPT-4o表现最稳。DeepSeek-V2在这个维度上很能打,尤其在做API参数组合时成功率不输GPT-4o,但价格只有后者的1/7。Qwen2-72B工具调用初看很强,可错误处理逻辑太糟,工具一返回异常就容易死循环——这在实际业务里是大忌讳。 中文客服回复:DeepSeek-V2拿了第一。它那种不亢不卑的语气确实适合客服场景。排在第二的是Qwen2-72B,但Qwen遇到投诉类对话容易过度道歉,人工审核时被标了不少“过度承诺”。 代码修复补全:DeepSeek-V2和Claude 3.5 Sonnet并列第一,侧重点不太一样。Claude改bug更保守,优先保证逻辑不变;DeepSeek会顺便优化代码结构,有几次改出了更简洁的实现,但偶尔引入新的边界bug。 竞对分析报告:这一项所有模型都很糟糕。要么过于泛泛,要么数据编得有模有样。没有模型能稳定生成���们需要的深度分析,最后这块业务我们暂时还是人写框架,AI辅助润色。从这些结果看,大模型排名根本不存在一个普适版本。即便是同一个模型,新旧 API 版本之间也差很多,比如 GPT-4o 六月份更新后推理加速明显,但长文本上的表现反而略有下降,很多评测榜都没反映这个变化。关于推理延迟的问题我之前专门拆过,把 GPT-4 级别模型的响应从 3 秒压到 800 毫秒做对了哪五件事,具体步骤在大模型推理延迟优化里写了,这里不多展开。
2025年的排名得看三个隐性变量
第一个是上下文窗口的利用效率。模型标称上下文都动辄128k甚至1M,但实际测下来,超过30k tokens之后大部分模型的召回率断崖下跌。只有Claude 3.5 Sonnet和Gemini 1.5 Pro相对稳。Qwen和DeepSeek在64k附近会丢关键信息,而且不是那种显而易见的丢——是答复看起来没问题,但缺了某一条约束,这在合同审查场景里会直接导致事故。
第二个是延迟-成本曲线。我不会只选最强的模型,而是选延迟和成本可接受的范围内最强的模型。比如客服问答,如果800ms内回不来,用户体验就打折扣。这时候DeepSeek-V2的性价比就无比突出。它在我跑的所有任务里,平均延迟比GPT-4o低40%,价格低一个数量级。这对于日均调用量过百万的企业来说不是选择题,是财务题。
第三个是备案与合规。国内业务上了规模就必须走备案模型。北京到现在已经有240多个大模型备案,数量全国第一,这背后意味着什么,不仅仅是政策倾向,更是产业链的信号,我在北京AI大模型备案分析里做过拆解。备案库里的模型选型名单,跟开源社区的热度榜相差挺大,很多在海外榜单上没见过的名字在国内实际业务里用得很广。
两个反直觉结论
第一,大尺寸模型的优势在消退。 年初我们默认必须上70B+参数量的模型,但到了下半年,很多30-40B参数的模型在垂直任务上不输70B,甚至因为推理更快而胜出。模型蒸馏和数据配方的进步,让“大”不再是绝对优势。 第二,端到端评测才有用。 别只看单个能力分数。Agent任务中工具调用+推理+对话管理是一体的,单拆某一项得分高没用。排名的唯一正确姿势,是在你自己的任务链条上从输入到输出完整跑一遍。今年我基本不看通用排行榜选模型了。会定期拿真实业务数据做一轮横评,更新自己的可用模型池。2025年变数还会加速,新的架构、新的MoE组合、数据飞轮效应的叠加,会让下个月重新跑出来的排名又变一版。但确认清楚自己到底需要什么,比看别人排的榜单重要得多。