我跑了24个模型做对比，发现Chatbot Arena的排名水有多深

上周搞了一轮内部评测，把Chatbot Arena上排前15的开源模型拉下来，用我们自己的业务数据集跑了2000条推理。结果跟榜单Elo分一对照，Spearman相关系数只有0.47——低于0.5基本就是弱相关。

这事儿我开始没往外说，怕是自己测试方式有问题。后来跟两个做Agent的朋友对了下数据，发现他们那儿的相关系数更低，0.3出头。这就不是偶发问题了。

榜单上的Elo分跟你脑补的不是一回事

先理一下Chatbot Arena的计分机制。用户随便出题，两个模型同时生成回答，用户选哪个更好，或者平局、都差。用Elo系统更新分数，跟国际象棋排名一个逻辑。听起来挺民主，问题就出在这个“民主”上。

用户群体偏差

Chatbot Arena每天的实际活跃用户，很大一部分是学生和初级开发者。我扒过2024年11月的一份采样统计，Top 50出题关键词里，“write an essay”“explain quicksort”“roleplay as boyfriend”这类需求占了六成以上。这意味着榜单衡量的是“普通用户觉得哪个模型更会聊天”，而不是“哪个模型在你自己的RAG pipeline里更好用”。

做完这个分析我立刻理解了为啥我们的RAG问答任务里，Qwen-72B的得分能反超Claude 3.5 Sonnet——Claude在长文本摘要上的确厉害，但Qwen对中文表格里的数字提取准确率高14个百分点。而这类结构化抽取任务，在Chatbot Arena的评测分布里占比不到3%。

延迟、格式稳定性这些被忽略的硬指标

榜单上没有任何一列显示P99延迟、JSON格式遵循率、或者跨语言一致性。但实际部署的时候，这些才是卡脖子的事。我之前做过一个实验，把GPT-4级别模型从3秒压到800ms，没有改模型本体，纯靠推理层优化，用户留存就涨了11个点。详见大模型推理延迟优化。榜单上两个Elo分差50的模型，在真实场景里一个每次都能正确输出JSON、另一个动不动就多打一个反引号，你会毫不犹豫选前者，哪怕它“排名”低一截。

国内备案列表跟榜单的割裂感

还有一个事让我对榜单脱敏特别快：北京备案的大模型数量去年已经冲到242个，全国第一，但其中上Chatbot Arena前100的不到15个。很多垂直行业的模型，比如医疗问诊、合同审核、税务计算，根本不会去刷榜单，因为它们的用户群和需求完全不在那个评测体系里。北京AI大模型备案分析里我聊过一个观察：真正在赚钱的模型，往往不出现在公共榜单上。

这就引出一个使用建议：别用榜单做初筛。初筛应该拿你自己的业务数据，哪怕只有50条黄金测试集，也比看Elo分靠谱一个数量级。榜单只有在你已经筛出2-3个候选模型、需要做背靠背盲测时，当成一个参考信号——注意是参考，不是依据。

写作能力评测的重灾区

几个榜单里，写作类的评测结果争议最大。LMSYS的Writing分项里，Claude系列长期霸榜，但真正用来写SEO内容的时候，我发现它的“高分”来源于风格讨喜——长短句交替、用词精准、符合人类偏好。可如果你需要大量生成符合Claude SEO优化实战里说的那些结构性要求（标题层级、关键词密度分布、内部链接逻辑），Claude的原��输出反而比某些分数更低的模型难改。因为它的语言太“干净”了，少了很多搜索引擎需要的语义锚点。

我后来做了一个残忍的测试：把三篇模型生成的文章直接上线，不人工修改，跑三周看排名。结果排第一的是Gemini 1.5 Pro生成的，它在Chatbot Arena的写作Elo比Claude低了40分。原因很简单：Gemini在长文章中能自然重复核心词3-4次，而Claude因为偏爱同义替换，核心词密度掉到了0.7%，被搜索算法判断为“相关性不足”。这个坑踩完，我再也没用纯写作分去选模型。

怎么建自己的评测清单

如果你现在要从零开始选模型，我建议做三件事，不用管任何榜单：

1. 抽50条真实场景的请求，把候选模型各跑一遍，人工标5分制。成本：半天。

2. 跑10轮格式稳定性测试，同样的指令要求输出JSON，统计有多少次格式错误。这个不费脑子，写个脚本自动跑。

3. 测延迟和首token时间，绑到你的使用方式上（API调用还是本地部署），统计P50和P95。

这三步做完，你会自动生出一个符合你自己场景的排名。这个排名加上时间戳，比任何公共榜单都有用。

我坚持更新的内部模型选型表总共就三个维度：任务相关准确率、格式遵循率、P95延迟。没有ELO分这个字段。