一段翻译把我对“排名”的滤镜打碎了
上个月接了个活,要把一批中文产品描述翻成德文,扔进德国电商站。随手开了三个模型的API:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro,同一段文案,同样的零样本提示词。结果Gemini把“防滑硅胶垫”翻成了类似“不滑的硅胶垫”,语感歪了;Claude翻得最地道,但把一句促销语翻得太书面,少了那种“现在买立刻省”的节奏;GPT-4o用在德文的第四格冠词错了两次,但能自动补上本地化表达,比如把“充电一次用一周”改成了“7 Tage ohne Nachladen”。
这时我看了一眼LMSYS Chatbot Arena的排名——那个时间点Gemini排第三,Claude和GPT-4o在争第一。我就知道,单纯看排行榜选模型,跟看大众点评找工厂工程师一样离谱。
LMSYS的Elo分能告诉我们什么,不能告诉我们什么
LMSYS的玩法不新鲜,但够直接:匿名模型对战,用户投票,Elo评分系统,跟国际象棋排名一个算法。每周更新一次,现在榜单上GPT-4o、Claude 3.5 Sonnet���Grok-2、Gemini 1.5 Pro交替领跑。但Elo有一个致命诱惑——它给人“客观分数”的幻觉。
我去年开始扒LMSYS的原始对战记录,发现三个容易误判的点:
1. 评测人群偏“Geek”。大部分投票用户是开发者和AI爱好者,他们偏好代码能力、推理题、复杂逻辑。你在榜单上看到模型A比模型B高30分,但可能只意味着模型A更擅长解LeetCode Hard题,不代表它写销售邮件更强。
2. Elo的置信区间被人忽略了。很多模型上下波动在±15分,排位第4和第7可能统计上没显著差异,但做产品选型的人只认数字序号。
3. 延迟和成本完全不进入计分。榜单排第一的模型可能单次推理3秒起步,而一个Elo低50分的模型跑起来只要400ms,真实业务里后者反而更吃香。
说到延迟,我在去年折腾 GPT-4 级别模型的落地时,真把推理延迟从3秒压到了800ms,五步优化全记在了这篇笔记里:推理延迟优化。当时就是因为LMSYS排名靠前的模型,在客服场景里响应太慢,用户直接挂断,留存率掉了12%。所以性能指标和排名得拆开看。
国外模型排名的另一层真相:多维度评测的割裂
只看一个综合榜会出大事。我在给选模型做对比时,会同时盯三个细分榜单:
我去年年底做过一次横评:同样的10条长文摘要任务,英文、日文、阿拉伯文各10条,六个模型跑了两轮。结论很反直觉——在英文摘要上排名第一的GPT-4,到了阿拉伯文摘要效果直接掉到第四,因为它对长串阿拉伯文的指代消解容易断。这些细节排行榜不会告诉你。
国内模型在海外榜单上的逆袭,以及落地的一地鸡毛
最近的LMSYS榜上,国产模型的身影越来越密:Qwen2.5-72B、Yi-Lighting、DeepSeek-V2都在前20扎堆。我对它��没偏见,反而用了不少。但有一点必须提:这些模型冲榜时,经常针对HumanEval、MMLU做了大量指令微调,分数好看,可一到垂直场景——问它“怎么在Shopify里改Checkout页的Liquid代码并绕过欧洲GDPR的cookie弹窗要求”,它就虚了。
更真实的门槛在国内落地环节。我去年就在追北京AI大模型的备案进度,242个完成备案的模型里,能冲进国外榜单的不到10个,那份血淋淋的差距我记在了:北京AI大模型备案分析。备案只是一个开端,真正要跑通“出海”这条线,数据合规、多语言安全、区域化部署,每一项都比榜单上多10分Elo难十倍。
我现在的选模流程:三个“反排名”原则
说了一堆问题,总得给解法。我给团队定了一个选模三原则,不保证最优,但至少没再出过因为“盲目信榜”导致的翻车:
原则一:先定任务,再对子榜,最后看综合Elo。 如果是客服对话场景,看MT-Bench的子项分数和语言特定榜,综合排名只当背景噪音。 原则二:每个候选模型必须打上真实业务语料做盲测。 我们内部用一套100条的测试集,覆盖敏感词过滤、方言混合、超长上下文、JSON格式输出四类问题。跑完才看模型名,避免被品牌光环带偏。 原则三:把延迟和成本卡死成前置条件。 响应超过1.2秒的模型直接出局,因为你花在推理优化上的精力,完全可以用来找另一个能跑进800ms的模型。延迟优化不是万能药,有时候换模型才是正解——具体优化思路我在那条800ms的文章里拆得很细。国外大模型排名这件事,说到底是一张地图,不是答案。地图能告诉你哪些路可能是通的,但你得自己下车看路况。那些把排名直接当采购清单的团队,最后都会在深夜的生产事故里把这个教训补回来。