去年10月,我们开始用大模型批量生成电商导购内容。当时照着LMSYS Chatbot Arena的排名挑模型,觉得Elo分高的肯定好使。结果第一个月光API费就烧了8000多,内容可用率不到40%。后来我们一口气测了15个模型,在商品卖点提取、用户评论总结、多语言FAQ生成三个任务上做了盲评,发现榜单上排名前5的模型,只有2个在真实业务里能稳定出活。
这件事让我重新审视了所有所谓“权威榜单”。
主流榜单到底在测什么
先看LMSYS Chatbot Arena,这应该是目前引用最多的榜单。它的核心是Elo评分系统,两个模型匿名对话,用户投票选更好的那个。听起来很公平,但问题是:用户偏好不等于任务能力。我们分析过去年12月的几万条投票数据,发现AI行业从业者占比不到7%,大量投票来自学生和泛兴趣用户,他们更看重回答是不是“像人”,而不是信息准确度或商业适配性。
Hugging Face的Open LLM Leaderboard测的是标准学术基准:MMLU、HellaSwag、ARC这些。我们内部跑过一遍,发现同一批模型在这些Benchmark上的排名,和我们电商场景里的表现相关性只有0.43。比如某个数学推理分很高的模型,在写商品描述时频繁出现事实编造——因为学术基准不检测幻觉,也不关心长文本生成的一致性。
中文榜单更复杂。SuperCLUE、C-Eval各有侧重,但很多模型的备案状态、API可用区、并发限制不在评测维度里。我们有次选了一个在某中文榜排第三的开源模型,部署完才发现不支持流式推理,内容生产速度直接掉到每秒2.3个token,整条生成链路卡死。
我们咋测的
踩完这些坑,我们建了一套任务驱动的自评系统,分了五步:
1. 抽真实任务做测试集从日志里捞了200条真实生成需求,覆盖短文本(标题)、中文本(问答)、长文本(专题文章),每条都预先做了人工参考标准。
2. 设四维打分,不看综合分只打四个分:事实准确度、格式合规度、语言流畅度、推理耗时。不看加权总分,因为不同任务的权重根本不一样。事实准确度在医疗类内容占80%,在创意文案里可能只占20%。
3. 盲评,至少两人交叉每个模型的输出混在excel里,随机顺序。两个评测员独立打分后对不一致项重评。我们第一次测发现,去掉模型名字后,之前公认“写作最强”的Claude 3.5,在某些带货话术上的得分还不如一个微调过的Qwen模型。那次经验被我写进另一篇文章:Claude SEO优化实战,里面详细拆了为什么榜单高分不直接等于搜索引擎眼里能抓住真实用户的内容。
4. 加入延迟红线很多榜单不测推理延迟。但我们做实时生成,超过1.5秒用户就跳走。测试时锁了两条红线:首token延迟<800ms,总生成速度不低于20tokens/s。当时为了压下GPT-4级别的延迟,我们折腾了一整套推理优化方案,细节在 大模型推理延迟优化里讲过。最终只有两个超大模型和一批中尺寸模型过关。
5. 成本上限直接筛掉一半模型我们的基准价是每百万输出token不超12元。光这一条,LMSYS前20名里就刷掉11个。
五步跑完,最终可用的只有4个模型,没一个在主流综合榜单里排进过前三。
行业榜单真正该看的三��点
后来我们不用任何“综合排名”做决策了,只看榜单里三个能落地的东西:
我们也想过,如果自己做一套公开评测会不会有通用性?后来发现不行。因为电商场景里“好内容”的定义,和一个法律文书场景里的完全不同。通用榜单的本质是给你一个缩小候选范围的工具,不是选型的终点。
现在你问我怎么选模型,我会说:先看任务分项筛出10个,再看延迟和成本砍到5个,最后用你的真实数据跑盲评。这才是你的权威榜单。
这个过程花掉2万API费加上两周测试时间,但比年初瞎跟着排行榜走的情况,现在生成内容的可用率已经做到82%以上。