选大模型别看综合分，我用三张表筛出了最适合干活的模型

前几天给一个做法律咨询的客户选模型，他们把 ChatGPT、Claude、Gemini 还有几个国产模型的榜单截图发过来，问哪个最好。我一看，Chatbot Arena 综合分那页，前十名差距不到 3%，根本拉不开。但客户要的不是“聊天最像人”，是要每天处理 2000 页合同，出错一次就赔钱的那种。

这件事让我想起去年另一个项目，我们用同样思路从“排名迷雾”里挣出来的真实效率——模型排名这件事，得拆开看。

你看到的排名，是给谁排的

现在公开的 AI 大模型排名少说有二三十个，但圈子里的老人都知道，这些榜单大致分三路：

综合体验分：像 LMSYS Chatbot Arena，靠用户盲投票，反映的是“聊起来爽不爽”。

学术基准分：MMLU、HellaSwag、HumanEval 这些，测的是知识广度和代码能力，但脱离业务场景。

业务定向分：企业自己做的私榜，绑定了具体任务——比如合同条款提取准确率、客服对话解决率。

前两种榜单看看趋势可以，拿来做技术选型会死得很惨。去年我拿 MMLU 高分的一个模型跑金融公告摘要，幻觉率高到 18%，因为那模型为了刷分，预训练阶段塞了大量维基百科，企业文件的长尾命名实体全不认识。后来我们把任务拆成“实体识别→关系抽取→摘要生成”三道工序，换了另一家北京刚通过备案的模型，幻觉率压到 5% 以下。

说到备案，2024 年底北京已备案的 AI 大模型数量冲到 242 个，全国第一。那段时间我正好在研究各家的落地路线，发现通过备案的模型里，垂直能力强的反而很少出现在通用榜上——北京242个ai大模型备案全国第一，我闻到了ai产业化的血腥味这个现象当时我就写了分析，因为备案名单里藏着大量“非榜上明星但特定任务能打”的模型，这才是干活的料。

我在用的三张表

现在每次评估新模型，我直接放弃看综合排名，改用三张自定表交叉筛，半年时间帮团队省了至少两万块 API 钱和几百小时调 prompt 的时间。

第一张：领域能力基准表

这条表只放与业务直接关联的任务。比如法律合同场景，我列了 6 个测试点：

1. 违约责任条款识别（F1 得分）

2. 金额/日期抽取准确率

3. 多层级标题下内容归属判断

4. 跨段落引用关系重建

5. 输出格式稳定性（JSON 字段缺失率）

6. 5 次重复测试的结果方差

每个点权重不同，我们自己标了 120 条样本，封闭测试。跑出来的结果跟公开榜差异很大——在 Chatbot Arena 排十几名的某模型，在这份表上直接冲到前二，因为它是专门在法律语料上做过二轮 SFT 的。

第二张：成本/延迟容忍表

这年头谁还在比单纯的速度已经落后了，要看“达标延迟”。我设定的规则是：模型回复到“能用”这个节点的耗时，才算有效延迟。很多模型首 token 很快，但后面吐一堆废话，达标延迟反而高。

我司技术栈里，大模型推理延迟优化这篇文章提到的几个方法，我们在选模型阶段就会预判：该模型是否支持 prefix caching？是否支持推测解码？KV cache 大小对长文档的影响多大。因为有模型看上去价格低，但长文档一跑出现内存溢出重试，实际成本高出 40%。

表里有几个硬指标：

首 token 延迟 > 1200ms 的模型直接 pass（除非是特定审批任务）

千页文档处理时内存波动超过 30% 的不考虑

价格不是看每百万 token 报价，而是算“产出有效结果”的均价。我们测过一次，某廉价模型要重试 2.3 次才能达到同样准确率，最终成本反而超过贵模型。

第三张：生态适配表

模型再强，提示词不兼容就是灾难。我从 2023 年开始记录不同模型对 system prompt 的理解偏差、function call 格式差异、流式输出 chunk 拆分的规律。比如有的模型对“不要胡说”这句话的理解是“不知道就说不知道”，有的模型是“减少输出细节”——后者在医疗问答场景直接致命。

生态适配这一块，我用 Claude SEO优化实战里的教训举过例子：当时写 SEO 内容，换了一个自称“写作能力最强”的模型，结果它把所有关键词都堆在第一段，完全破坏语义分布。后来我做了个适配层，针对不同模型的输出倾向做二次修正，才稳定下来。这件事教会我，模型排名里永远看不见“它会在哪些 prompt 下失控”，只有踩过才知道。

排名背后的三个隐藏变量

很多人只看到排名表面的数字，但真正决定排名的三个东西，榜单不会标：

数据污染度。 公开基准的测试题一旦泄露，模型训练时见过，分数就虚高。我验证过，某模型在 HumanEval 上分数涨了 12 个点，同期 GitHub 上出现了几乎一模一样的题目。我们后来测试时都用自己构造的衍生题，把变量名、上下文都换掉，分数立马掉 30%。 评测窗口。 现在的模型更新飞快，上个月的第一这月可能被超。公开榜的更新周期通常 1-2 周，但企业做决策的周期是 3-6 个月。所以我要求团队用“动态快照”——每周录一次关键指标，画成趋势线，只看稳定向上不剧烈波动的模型，这种才敢上生产。 人评偏差。 Chatbot Arena 用的是人类偏好，偏好是主观的。更长的回答、更礼貌的语气、加 emoji 都会拉高评分，但这些和准确性无关。我们做合同审查时，精确的模型说话很硬，经常是“第 3 条第 2 款缺失”——这种回答在体感榜上会吃亏，但这是我要的。

我现在的做法

总结下来，我已经半年没给团队发过“XX 模型综合排名链接”了。现在只发两张图：自测的领域能力分数柱状图，和延迟-成本散点图。大家看着这两张图选模型，五分钟出结论，上线后三个月没出过因模型选错导致的生产事故。

如果你手头有具体的业务问��，千万别上来就看排行榜，先去拉 50 条真实数据，跑三个候选模型，用“准确率/延迟/单条成本”这个三角做决策。把综合排名的页面关掉，你会发现自己需要的信息其实很少，但很硬。

选大模型别看综合分，我用三张表筛出了最适合干活的模型

你看到的排名，是给谁排的

我在用的三张表

排名背后的三个隐藏变量

我现在的做法

📖 相关文章

🤖 你的网站能被AI搜索到吗？