上周在办公室,我把同一个长尾词列表丢给了5个模型——对,就是那种“xx品牌到底怎么样”的信息差词。
每个模型写100篇,prompt完全一样,温度调成0.7,最大token锁在1200。
跑完让编辑部盲评,再结合我自己写的事实核查脚本(主要验引用、查幻觉),得出一组数据。
先看结果不管排名,先看眼我的评分维度:
这里面没有“综合得分”这种虚词,我就是五个维度拆开看,因为不同任务偏重不一样。
写SEO内容,最致命的是事实错误和指令不跟,排版乱还能改,数据编了就是事故。
第一名:Claude 3.5 Sonnet
事实准确率最高,100篇里只抓到3处幻想——一个是把2023年的融资额说成2024,还有一个是虚构了一句用户评价。
跟去年比进步了不少,当时我踩过大坑,在Claude SEO优化实战里写过,长文生成到后半段经常跑偏,中途忘了prompt里那句“不要用首先其次最后”。
现在连贯性好很多,Sonnet在处理800-1000字文章时,90%能从头到尾保持指令。
可读性4.8,编辑部最爱用,理由是“废话少,小标题切得准”。
缺点是速度:首token延迟平均2.4秒,比GPT-4o慢了不少。如果你像我一样批量跑几百篇,卡在推理时间上是真肉疼。
第二名:GPT-4o
指令遵循度最高,格式要求几乎从不出错,事实准确率排第二,5处幻想。
但可读性只有4.2,问题在于太“正”——开头老爱用“在当今……”,我prompt里写的是“口语化、短句、不要水词”,它还是会滑回教科书口吻。
速度很快,首token 1.1秒,大批量生产时这个速度差距会被放大。
如果你做的是需要高度可控、步骤明确的页面(比如产品对比文),GPT-4o是最稳的选择,但得再跑一轮改写模型去掉水味。
第三名:Gemini 1.5 Pro
我特意在100个关键词里掺了10个需要引用外部数据的问题,比如“2025年xx行业市场规模”。
Gemini在这里有大优势,它的检索增强(Google Search grounding)把这10篇的事实准确率拉到了100%,其他模型都做不到。
可惜不联网的那90篇里幻觉率偏高,一共14处错误,大部分是数据篡改——它会把一个统计数字的年份悄悄换成更近的,看起来像最新数据,其实是编的。
这个非常危险。用Gemini生成SEO内容,必须配事实核查流程,或者只用在能实时联网的场景。
可读性4.4,属于能用但要小修。
第四名:DeepSeek-V2.5
速度第一。首token延迟我在本地测到了惊人的0.7秒,受益于MoE架构的推理优化,之前写大模型推理延迟优化时提到过,把token生成压进1秒内的关键就是选对架构。
但问题也明显:指令遵循度最低,100篇里有17篇格式出岔子,要么漏掉H3,要么字数超标。
事实准确率中等,7处幻想。编辑部给可读性打了4.0,典型评价是“句子太长,读着累”。
如果你有后处理流水线(格式清理、分句、再润色),DeepSeek是成��最低的选择,API价格只有GPT-4o的十分之一。
第五名:Qwen2-72B
其实我本来没打算测它,因为团队一个同事说“开源里的黑马”,我就加了。
结果挺失望的——事实准确率最差,16处错误,而且很多是低级的,比如把公司CEO名字搞混,把英文术语翻成不存在的中文说法。
可读性3.8,编辑看了直摇头。唯一可取的还是速度,首token 0.9秒。
在中文SEO内容这个场景下,我不推荐。
这个排行一个月后就失效
我写这段是9月初,大模型发布节奏太快。新出的DeepSeek-V3、传闻中的Qwen3都没赶上测试。
我的习惯是每月跑一次同样的测试集,版本固定、prompt固定,只换模型。
因为榜单是动态的,你不能拿6个月前的结论套今天的模型。
如果你也在选模型做内容生产,别只看别人的benchmark——自己用真实业务数据做一个评测集,成本就几百块API费。
比任何第三方排行榜都可靠。