← 返回首页返回博客列表

我让5个大模型写了100篇SEO文章,跑出来的排行榜有点意外

📌 核心要点:

用5个大模型各写100篇SEO文章,实测事实准确、可读、指令遵循、速度四个维度,跑出我自己的排行榜。Claude 3.5 Sonnet意外登顶。

上周在办公室,我把同一个长尾词列表丢给了5个模型——对,就是那种“xx品牌到底怎么样”的信息差词。

每个模型写100篇,prompt完全一样,温度调成0.7,最大token锁在1200。

跑完让编辑部盲评,再结合我自己写的事实核查脚本(主要验引用、查幻觉),得出一组数据。

先看结果

不管排名,先看眼我的评分维度:

  • 事实准确率:核查脚本能自动比对的内容,比如数据、日期、人名
  • SEO可用率:编辑愿意直接用的比例,不需要大改的
  • 指令遵循度:格式要求(H2/H3、字数、语气)是否到位
  • 可读性:编辑部盲评打分,5分制
  • 推理速度:平均首token延迟(同一台4090,vLLM部署时测的私有版)
  • 这里面没有“综合得分”这种虚词,我就是五个维度拆开看,因为不同任务偏重不一样。

    写SEO内容,最致命的是事实错误和指令不跟,排版乱还能改,数据编了就是事故。

    第一名:Claude 3.5 Sonnet

    事实准确率最高,100篇里只抓到3处幻想——一个是把2023年的融资额说成2024,还有一个是虚构了一句用户评价。

    跟去年比进步了不少,当时我踩过大坑,在Claude SEO优化实战里写过,长文生成到后半段经常跑偏,中途忘了prompt里那句“不要用首先其次最后”。

    现在连贯性好很多,Sonnet在处理800-1000字文章时,90%能从头到尾保持指令。

    可读性4.8,编辑部最爱用,理由是“废话少,小标题切得准”。

    缺点是速度:首token延迟平均2.4秒,比GPT-4o慢了不少。如果你像我一样批量跑几百篇,卡在推理时间上是真肉疼。

    第二名:GPT-4o

    指令遵循度最高,格式要求几乎从不出错,事实准确率排第二,5处幻想。

    但可读性只有4.2,问题在于太“正”——开头老爱用“在当今……”,我prompt里写的是“口语化、短句、不要水词”,它还是会滑回教科书口吻。

    速度很快,首token 1.1秒,大批量生产时这个速度差距会被放大。

    如果你做的是需要高度可控、步骤明确的页面(比如产品对比文),GPT-4o是最稳的选择,但得再跑一轮改写模型去掉水味。

    第三名:Gemini 1.5 Pro

    我特意在100个关键词里掺了10个需要引用外部数据的问题,比如“2025年xx行业市场规模”。

    Gemini在这里有大优势,它的检索增强(Google Search grounding)把这10篇的事实准确率拉到了100%,其他模型都做不到。

    可惜不联网的那90篇里幻觉率偏高,一共14处错误,大部分是数据篡改——它会把一个统计数字的年份悄悄换成更近的,看起来像最新数据,其实是编的。

    这个非常危险。用Gemini生成SEO内容,必须配事实核查流程,或者只用在能实时联网的场景。

    可读性4.4,属于能用但要小修。

    第四名:DeepSeek-V2.5

    速度第一。首token延迟我在本地测到了惊人的0.7秒,受益于MoE架构的推理优化,之前写大模型推理延迟优化时提到过,把token生成压进1秒内的关键就是选对架构。

    但问题也明显:指令遵循度最低,100篇里有17篇格式出岔子,要么漏掉H3,要么字数超标。

    事实准确率中等,7处幻想。编辑部给可读性打了4.0,典型评价是“句子太长,读着累”。

    如果你有后处理流水线(格式清理、分句、再润色),DeepSeek是成��最低的选择,API价格只有GPT-4o的十分之一。

    第五名:Qwen2-72B

    其实我本来没打算测它,因为团队一个同事说“开源里的黑马”,我就加了。

    结果挺失望的——事实准确率最差,16处错误,而且很多是低级的,比如把公司CEO名字搞混,把英文术语翻成不存在的中文说法。

    可读性3.8,编辑看了直摇头。唯一可取的还是速度,首token 0.9秒。

    在中文SEO内容这个场景下,我不推荐。

    这个排行一个月后就失效

    我写这段是9月初,大模型发布节奏太快。新出的DeepSeek-V3、传闻中的Qwen3都没赶上测试。

    我的习惯是每月跑一次同样的测试集,版本固定、prompt固定,只换模型。

    因为榜单是动态的,你不能拿6个月前的结论套今天的模型。

    如果你也在选模型做内容生产,别只看别人的benchmark——自己用真实业务数据做一个评测集,成本就几百块API费。

    比任何第三方排行榜都可靠。

    🤖 你的网站能被AI搜索到吗?

    免费检测你的网站GEO健康分,看看ChatGPT、DeepSeek会不会推荐你

    🔍 免费GEO检测 📊 注册解锁AI分析