上个月接了个活,给一个出海工具站做多语种FAQ。23个产品功能点,每点生成中、英、西、法四语答案,要求语气一致、能直接贴进Help Scout。我拿Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro各跑了一轮,三个模型全用同一个Few-shot Prompt,人工打分。Claude总分第一,特别是法语那份,连客户法国子公司的本地人都没挑出毛病。
然后我顺手看了一眼Chatbot Arena那周的排名——Claude 3.5 Sonnet总分倒是进了前三,但Elo分比GPT-4o低了40多。这种榜单表现和我手里的实测数据对不上,已经不是第一次了。
榜单上的Claude到底排第几
先摊开看几组数字,不讲虚的。
LMSYS Chatbot Arena截至上周,Claude 3.5 Sonnet(20241022版本)总体排第二,只输给GPT-4o最新版,但优势区间很小。OpenRouter社区的那个实时胜率面板里,Sonnet的“写作”分类下胜率一度干到过61%,可一到“硬推理”类任务就直接掉到第三,被Gemini 2.0 Flash超了。
再看评测集。MMLU-Pro上Sonnet得分约77.0,GPT-4o约77.5,差距0.5%;HumanEval代码任务上Sonnet 92%,GPT-4o 90.5%,Claude反倒是反杀了。GSM8K数学题,Sonnet 96.4%,比GPT-4o低0.8个百分点。
你会发现一个问题:没有一个绝对排名能覆盖所有场景。一个模型在写作榜单里排第一,在数学榜排第三,在指令遵循榜排第五。你如果只看综合排名就下结论“Claude不如谁”,相当于用平均气温判断今天穿啥——极容易误事。
评测的坑:你看到的名次是怎么来的
我去年参与过一个内部模型评测项目,帮一家北美公司定采购方案,跑了三周。说个扎心的细节:很多公开榜单用的打分逻辑是“人类偏好投票”,A和B两个回复放一块,让人选哪个好。这种成对比较测出来的Elo分,对“风格偏好”极其敏感。
举个例子。同一道客服回复题,Claude给的答案结构更干净、先确认问题再给步骤;GPT-4o喜欢先共情再展开。标注员如果是美国人,会觉得Claude“太冷”,于是GPT-4o赢了。但如果把同一个人扔到客服效率评估的场景下,那个“太冷”的回复直接让会话步骤少2步,Claude就赢了。
所以你在Chatbot Arena看到的那40分差距,拆开看任务分布你就懂了:Claude在“Hard Prompt”类目里跟GPT-4o咬得很紧,但在“Longer Query”这类偏向闲聊、开放回答的类目里天然吃亏。不是因为能力差,是因为产品取向不同。Claude被Anthropic训得更像执行者,不是聊天搭子。
我手里的模型怎么选:不看排名看“任务剖面”
我自己现在选模型不看总榜,而是画一个简单的任务剖面图,横轴放精度要求、纵轴放语言多样性。跑出来是这样的经验值:
延迟和成本的隐藏排名
还有一个榜单上不写但实际工作中极其要命的东西——响应速度。
去年我做了一个大模型API网关的延迟测试,GPT-4级别模型在复杂Prompt下,平均首Token延迟能做到3秒就算不错。后来我们团队通过请求调度和流式优化把延迟压到了800毫秒以内,具体操作我写在了大模型推理延迟优化里。在同等优化条件下,Claude的API首Token延迟普遍比GPT-4o低200ms左右,这个差距在做实时对话产品时就是“能用”和“卡顿”的分野。
成本方面,Claude 3.5 Sonnet输入$3/1M tokens,输出$15/1M tokens;GPT-4o输入$2.5,输出$10。乍看Claude贵,但它输出通常更紧凑,同样一篇SEO文章,Claude的token消耗平均少15%,实际成本差不多。选哪个纯粹看你需不需要它那股“不废话”的劲儿。
国内用户面临的另一套排名现实
对做国内业务的人来说,Claude还有一个隐形的排名:不可访问性。
北京现在备案了242个大模型,数量全国第一,政策窗口期内合规模型的上线速度快得吓人。你想让国内客户直接用Claude?别想了。这意味着在国内AI应用选型里,Claude的排名直接被拉到底——不是因为能力,是因为合规。这个趋势我在北京AI大模型备案分析里拆解过,API开放区域实际影响着模型在市场上的“可用排名”,而不仅仅是技术排名。
如果你做的产品是海外市场,Claude完全值得放进主力模型池。如果是国内市场为主,那就要考虑用国内模型做核心,Claude仅作海外辅助节点,否则运维成本会把性价比拉成负的。
排名这事儿,打成一张表你就输了
我现在的结论很直白:把模型排名打成一张表,然后根据那张表做技术选型的人,最后都得返工。
正确的做法是,先定义你自己的任务剖面,拿3到5个典型Prompt去实测,记录准确率、延迟、成本和你团队能接受的错误类型,然后才把排名当作参考验证,而不是决策依据。Claude在某些榜单上排不高,但在我手里那23个多语种FAQ的实战中,它就是第一名。你的第一名是谁,得你自己跑出来。