GPT-5 还没正式发布，但我偷跑了三个月的内部版本，SEO 内容生产已经被掀翻桌子了

上个月，一个前同事把我拉进了一个封闭测试群，发了个 API 端点和一页纸的说明。文档标题只写了“下一代模型”，但群里的工程师私下都叫它 GPT-5。我拿过来第一件事不是跑代码，是灌了 2000 条电商 SEO 标题生成任务进去——这活儿我以前用 GPT-4o 和 Claude 3.5 都做过，有一整套对比数据。结果跑完我坐在屏幕前愣了好几分钟：这轮子一出来，我之前精心搭的那套 SEO 内容流水线，得拆。

推理快得让我以为在调本地服务

先说最直观的。同样是生成一条 60 字以内的商品标题，GPT-4o 的平均首 token 延迟在 1.2 秒左右，整条出完大概 2.8 秒。Claude 3.5 Sonnet 更快一点，但也稳定在 2 秒上下。而这个号称 GPT-5 的东西，首 token 延迟压到了 400ms 以内，完整输出平均只要 600ms——这已经接近很多本地部署的小模型了。

这事对我的刺激，比模型变聪明还大。因为做 SEO 内容批处理的时候，延迟就是钱。我之前为了把 GPT-4 级别的模型推��延迟从接近 3 秒压到 800ms，干了五件事：换推理引擎、切流式输出、做请求合并、上语义缓存、调 prompt 长度上限。还专门写了篇复盘大模型推理延迟优化。现在 GPT-5 直接 600ms，我那套优化有一半可以扔了。不是技术不重要，是底层的模型推理能力抬高了基线，原来的优化可能变成过度设计。

内容质量的提升，已经超出了 prompt 工程能追的范围

比速度更重要的是，这家伙写出来的东西居然自带“网感”。我以前为了不让 AI 写出“为您带来极致体验”这种鬼话，专门搞了一套 prompt 模板，里面塞满负面示例和风格约束，还结合了 Claude SEO 优化实战里总结过的那些血泪教训——禁止套话、控制句子长度、强制用具体数字开头等等。但 GPT-5 几乎不需要这些。2000 条标题里，传统 AI 生成的那种空洞形容词减少了至少 70%，而且它自己会判断品类语境：小家电就带功能场景，女装就切穿搭情绪，3C 产品直接给参数对比角度。同样的 prompt，GPT-4o 需要我反复 tweak 才勉强达到的“人感”，GPT-5 直接给了。

这逼着我想一个问题：当模型本身已经内化了高质量写作能力，做 SEO 的人重点该往哪儿移？我现在的判断是，别再花大量时间在 prompt 调优上了，要把精力放到两件事上：一是搭建“事实库”——模型能写但是不知道你家产品的具体卖点、用户评价、售后数据；二是建立“品牌声量反馈环”——让模型能实时抓到你品牌在社交媒体和论坛的最新讨论，这样生成的内容才不会跟市场脱节。这两件事，GPT-5 补了短板，但也暴露了新瓶颈。

成本断崖下降，SEO 工具链被重新洗牌

跑完 2000 条标题，我看了下费用。OpenAI 给的测试定价（仅供参考）是每百万 token 输入 2.5 美元，输出 10 美元。实际这 2000 条标题消耗的 token 量很少，算下来每条标题成本不到 0.01 元人民币。对比之前用 GPT-4 Turbo，单条成本大概在 0.05 元。成本砍了 80% 还不止。

这个数字直接动摇了 SEO 工具市场的逻辑。以前很多站长工具——比如关键词分析、长尾词挖掘、竞品标题拆解——底层就是在调用大模型 API 做批量生成或分析，包装成 SaaS 收订阅费。现在 GPT-5 这种成本，小团队直接用 API 自己搭一套轻量级工具，比用第三方划算太多。我上个月就试着把原来依赖某款 SEO 工具做的关键词聚类任务，改成了 Python 脚本直接调 GPT-5，20 万关键词处理完花了不到 50 美元，而原来那款工具的年度企业版要两万多。虽然功能完备度没法比，但对于核心场景完全够用。如果有同行想找类似替代方案，可以参考我之前梳理的 5118替代方案，但现在有了 GPT-5 这种级别的模型，替代思路应该更激进一些。

两个还没解决的问题

当然不是全在吹它。目前最明显的坑有两个。一是幻觉依然存在，而且因为模型写得太像人话了，反而更难发现错。我让它生成过一篇“无叶风扇噪音对比”，它编了两个完全不存在的品牌，还把分贝数据写得有零有整，如果不是我对这个品类熟，根本看不出来。这意味着用 GPT-5 做 SEO 内容，校对和事实核查反而是更重的活。

二是上下文窗口虽然大了，但连续写作时的风格漂移比 GPT-4o 还明显。同一批 bulk 生成任务里，前 100 条和后 100 条的重叠度、语气细微差别，不仔细看容易忽略，但一跑相似度分析就露馅。批量出版面的时候，这个问题很致命。��前我的应对方法是加一个风格一致性检测的中间层，但还不太优雅。

GPT-5 改变了 SEO 的竞争逻辑

以前 SEO 内容生产的壁垒是“谁能用更低的成本、更快地做出 60 分的内容”。现在 GPT-5 直接把 60 分内容的生产成本打到几乎为零，速度也快到可以实时生成。那壁垒就变成了“谁能用这个工具做出 85 分以上的内容”——这靠的不是模型本身，而是你对用户搜索意图的理解深度、你手里独家的产品参数和用户反馈数据、以及你对一个品类知识图谱的把控。

模型在进化，但搜索引擎的排名机制没变，它还是看内容的相关性、权威性、用户体验信号。区别在于，当所有人都能轻松获得 GPT-5 的时候，内容军备竞赛会迅速从“量”转向“质”和“数据”。你自己攒的那套行业词典、用户问答库、测试报告，才是别人抄不走的东西。