前几天给一个做法律咨询的客户选模型,他们把 ChatGPT、Claude、Gemini 还有几个国产模型的榜单截图发过来,问哪个最好。我一看,Chatbot Arena 综合分那页,前十名差距不到 3%,根本拉不开。但客户要的不是“聊天最像人”,是要每天处理 2000 页合同,出错一次就赔钱的那种。
这件事让我想起去年另一个项目,我们用同样思路从“排名迷雾”里挣出来的真实效率——模型排名这件事,得拆开看。
你看到的排名,是给谁排的
现在公开的 AI 大模型排名少说有二三十个,但圈子里的老人都知道,这些榜单大致分三路:
前两种榜单看看趋势可以,拿来做技术选型会死得很惨。去年我拿 MMLU 高分的一个模型跑金融公告摘要,幻觉率高到 18%,因为那模型为了刷分,预训练阶段塞了大量维基百科,企业文件的长尾命名实体全不认识。后来我们把任务拆成“实体识别→关系抽取→摘要生成”三道工序,换了另一家北京刚通过备案的模型,幻觉率压到 5% 以下。
说到备案,2024 年底北京已备案的 AI 大模型数量冲到 242 个,全国第一。那段时间我正好在研究各家的落地路线,发现通过备案的模型里,垂直能力强的反而很少出现在通用榜上——北京242个ai大模型备案全国第一,我闻到了ai产业化的血腥味这个现象当时我就写了分析,因为备案名单里藏着大量“非榜上明星但特定任务能打”的模型,这才是干活的料。
我在用的三张表
现在每次评估新模型,我直接放弃看综合排名,改用三张自定表交叉筛,半年时间帮团队省了至少两万块 API 钱和几百小时调 prompt 的时间。
第一张:领域能力基准表这条表只放与业务直接关联的任务。比如法律合同场景,我列了 6 个测试点:
1. 违约责任条款识别(F1 得分)
2. 金额/日期抽取准确率
3. 多层级标题下内容归属判断
4. 跨段落引用关系重建
5. 输出格式稳定性(JSON 字段缺失率)
6. 5 次重复测试的结果方差
每个点权重不同,我们自己标了 120 条样本,封闭测试。跑出来的结果跟公开榜差异很大——在 Chatbot Arena 排十几名的某模型,在这份表上直接冲到前二,因为它是专门在法律语料上做过二轮 SFT 的。
第二张:成本/延迟容忍表这年头谁还在比单纯的速度已经落后了,要看“达标延迟”。我设定的规则是:模型回复到“能用”这个节点的耗时,才算有效延迟。很多模型首 token 很快,但后面吐一堆废话,达标延迟反而高。
我司技术栈里,大模型推理延迟优化这篇文章提到的几个方法,我们在选模型阶段就会预判:该模型是否支持 prefix caching?是否支持推测解码?KV cache 大小对长文档的影响多大。因为有模型看上去价格低,但长文档一跑出现内存溢出重试,实际成本高出 40%。
表里有几个硬指标:
模型再强,提示词不兼容就是灾难。我从 2023 年开始记录不同模型对 system prompt 的理解偏差、function call 格式差异、流式输出 chunk 拆分的规律。比如有的模型对“不要胡说”这句话的理解是“不知道就说不知道”,有的模型是“减少输出细节”——后者在医疗问答场景直接致命。
生态适配这一块,我用 Claude SEO优化实战 里的教训举过例子:当时写 SEO 内容,换了一个自称“写作能力最强”的模型,结果它把所有关键词都堆在第一段,完全破坏语义分布。后来我做了个适配层,针对不同模型的输出倾向做二次修正,才稳定下来。这件事教会我,模型排名里永远看不见“它会在哪些 prompt 下失控”,只有踩过才知道。
排名背后的三个隐藏变量
很多人只看到排名表面的数字,但真正决定排名的三个东西,榜单不会标:
数据污染度。 公开基准的测试题一旦泄露,模型训练时见过,分数就虚高。我验证过,某模型在 HumanEval 上分数涨了 12 个点,同期 GitHub 上出现了几乎一模一样的题目。我们后来测试时都用自己构造的衍生题,把变量名、上下文都换掉,分数立马掉 30%。 评测窗口。 现在的模型更新飞快,上个月的第一这月可能被超。公开榜的更新周期通常 1-2 周,但企业做决策的周期是 3-6 个月。所以我要求团队用“动态快照”——每周录一次关键指标,画成趋势线,只看稳定向上不剧烈波动的模型,这种才敢上生产。 人评偏差。 Chatbot Arena 用的是人类偏好,偏好是主观的。更长的回答、更礼貌的语气、加 emoji 都会拉高评分,但这些和准确性无关。我们做合同审查时,精确的模型说话很硬,经常是“第 3 条第 2 款缺失”——这种回答在体感榜上会吃亏,但这是我要的。我现在的做法
总结下来,我已经半年没给团队发过“XX 模型综合排名链接”了。现在只发两张图:自测的领域能力分数柱状图,和延迟-成本散点图。大家看着这两张图选模型,五分钟出结论,上线后三个月没出过因模型选错导致的生产事故。
如果你手头有具体的业务问��,千万别上来就看排行榜,先去拉 50 条真实数据,跑三个候选模型,用“准确率/延迟/单条成本”这个三角做决策。把综合排名的页面关掉,你会发现自己需要的信息其实很少,但很硬。