我让5个大模型写了100篇SEO文章，跑出来的排行榜有点意外

上周在办公室，我把同一个长尾词列表丢给了5个模型——对，就是那种“xx品牌到底怎么样”的信息差词。

每个模型写100篇，prompt完全一样，温度调成0.7，最大token锁在1200。

跑完让编辑部盲评，再结合我自己写的事实核查脚本（主要验引用、查幻觉），得出一组数据。

先看结果

不管排名，先看眼我的评分维度：

事实准确率：核查脚本能自动比对的内容，比如数据、日期、人名

SEO可用率：编辑愿意直接用的比例，不需要大改的

指令遵循度：格式要求（H2/H3、字数、语气）是否到位

可读性：编辑部盲评打分，5分制

推理速度：平均首token延迟（同一台4090，vLLM部署时测的私有版）

这里面没有“综合得分”这种虚词，我就是五个维度拆开看，因为不同任务偏重不一样。

写SEO内容，最致命的是事实错误和指令不跟，排版乱还能改，数据编了就是事故。

第一名：Claude 3.5 Sonnet

事实准确率最高，100篇里只抓到3处幻想——一个是把2023年的融资额说成2024，还有一个是虚构了一句用户评价。

跟去年比进步了不少，当时我踩过大坑，在Claude SEO优化实战里写过，长文生成到后半段经常跑偏，中途忘了prompt里那句“不要用首先其次最后”。

现在连贯性好很多，Sonnet在处理800-1000字文章时，90%能从头到尾保持指令。

可读性4.8，编辑部最爱用，理由是“废话少，小标题切得准”。

缺点是速度：首token延迟平均2.4秒，比GPT-4o慢了不少。如果你像我一样批量跑几百篇，卡在推理时间上是真肉疼。

第二名：GPT-4o

指令遵循度最高，格式要求几乎从不出错，事实准确率排第二，5处幻想。

但可读性只有4.2，问题在于太“正”——开头老爱用“在当今……”，我prompt里写的是“口语化、短句、不要水词”，它还是会滑回教科书口吻。

速度很快，首token 1.1秒，大批量生产时这个速度差距会被放大。

如果你做的是需要高度可控、步骤明确的页面（比如产品对比文），GPT-4o是最稳的选择，但得再跑一轮改写模型去掉水味。

第三名：Gemini 1.5 Pro

我特意在100个关键词里掺了10个需要引用外部数据的问题，比如“2025年xx行业市场规模”。

Gemini在这里有大优势，它的检索增强（Google Search grounding）把这10篇的事实准确率拉到了100%，其他模型都做不到。

可惜不联网的那90篇里幻觉率偏高，一共14处错误，大部分是数据篡改——它会把一个统计数字的年份悄悄换成更近的，看起来像最新数据，其实是编的。

这个非常危险。用Gemini生成SEO内容，必须配事实核查流程，或者只用在能实时联网的场景。

可读性4.4，属于能用但要小修。

第四名：DeepSeek-V2.5

速度第一。首token延迟我在本地测到了惊人的0.7秒，受益于MoE架构的推理优化，之前写大模型推理延迟优化时提到过，把token生成压进1秒内的关键就是选对架构。

但问题也明显：指令遵循度最低，100篇里有17篇格式出岔子，要么漏掉H3，要么字数超标。

事实准确率中等，7处幻想。编辑部给可读性打了4.0，典型评价是“句子太长，读着累”。

如果你有后处理流水线（格式清理、分句、再润色），DeepSeek是成��最低的选择，API价格只有GPT-4o的十分之一。

第五名：Qwen2-72B

其实我本来没打算测它，因为团队一个同事说“开源里的黑马”，我就加了。

结果挺失望的——事实准确率最差，16处错误，而且很多是低级的，比如把公司CEO名字搞混，把英文术语翻成不存在的中文说法。

可读性3.8，编辑看了直摇头。唯一可取的还是速度，首token 0.9秒。

在中文SEO内容这个场景下，我不推荐。

这个排行一个月后就失效

我写这段是9月初，大模型发布节奏太快。新出的DeepSeek-V3、传闻中的Qwen3都没赶上测试。

我的习惯是每月跑一次同样的测试集，版本固定、prompt固定，只换模型。

因为榜单是动态的，你不能拿6个月前的结论套今天的模型。

如果你也在选模型做内容生产，别只看别人的benchmark——自己用真实业务数据做一个评测集，成本就几百块API费。

比任何第三方排行榜都可靠。