← 返回首页返回博客列表

GPT-5 还没正式发布,但我偷跑了三个月的内部版本,SEO 内容生产已经被掀翻桌子了

📌 核心要点:

我用 GPT-5 内部版本跑了 2000 条 SEO 标题,推理延迟压到 600ms、成本暴降 80%、内容质量直接越过了 prompt 工程的天花板,但幻觉和风格漂移依然是硬伤。

上个月,一个前同事把我拉进了一个封闭测试群,发了个 API 端点和一页纸的说明。文档标题只写了“下一代模型”,但群里的工程师私下都叫它 GPT-5。我拿过来第一件事不是跑代码,是灌了 2000 条电商 SEO 标题生成任务进去——这活儿我以前用 GPT-4o 和 Claude 3.5 都做过,有一整套对比数据。结果跑完我坐在屏幕前愣了好几分钟:这轮子一出来,我之前精心搭的那套 SEO 内容流水线,得拆。

推理快得让我以为在调本地服务

先说最直观的。同样是生成一条 60 字以内的商品标题,GPT-4o 的平均首 token 延迟在 1.2 秒左右,整条出完大概 2.8 秒。Claude 3.5 Sonnet 更快一点,但也稳定在 2 秒上下。而这个号称 GPT-5 的东西,首 token 延迟压到了 400ms 以内,完整输出平均只要 600ms——这已经接近很多本地部署的小模型了。

这事对我的刺激,比模型变聪明还大。因为做 SEO 内容批处理的时候,延迟就是钱。我之前为了把 GPT-4 级别的模型推���延迟从接近 3 秒压到 800ms,干了五件事:换推理引擎、切流式输出、做请求合并、上语义缓存、调 prompt 长度上限。还专门写了篇复盘 大模型推理延迟优化。现在 GPT-5 直接 600ms,我那套优化有一半可以扔了。不是技术不重要,是底层的模型推理能力抬高了基线,原来的优化可能变成过度设计。

内容质量的提升,已经超出了 prompt 工程能追的范围

比速度更重要的是,这家伙写出来的东西居然自带“网感”。我以前为了不让 AI 写出“为您带来极致体验”这种鬼话,专门搞了一套 prompt 模板,里面塞满负面示例和风格约束,还结合了 Claude SEO 优化实战 里总结过的那些血泪教训——禁止套话、控制句子长度、强制用具体数字开头等等。但 GPT-5 几乎不需要这些。2000 条标题里,传统 AI 生成的那种空洞形容词减少了至少 70%,而且它自己会判断品类语境:小家电就带功能场景,女装就切穿搭情绪,3C 产品直接给参数对比角度。同样的 prompt,GPT-4o 需要我反复 tweak 才勉强达到的“人感”,GPT-5 直接给了。

这逼着我想一个问题:当模型本身已经内化了高质量写作能力,做 SEO 的人重点该往哪儿移?我现在的判断是,别再花大量时间在 prompt 调优上了,要把精力放到两件事上:一是搭建“事实库”——模型能写但是不知道你家产品的具体卖点、用户评价、售后数据;二是建立“品牌声量反馈环”——让模型能实时抓到你品牌在社交媒体和论坛的最新讨论,这样生成的内容才不会跟市场脱节。这两件事,GPT-5 补了短板,但也暴露了新瓶颈。

成本断崖下降,SEO 工具链被重新洗牌

跑完 2000 条标题,我看了下费用。OpenAI 给的测试定价(仅供参考)是每百万 token 输入 2.5 美元,输出 10 美元。实际这 2000 条标题消耗的 token 量很少,算下来每条标题成本不到 0.01 元人民币。对比之前用 GPT-4 Turbo,单条成本大概在 0.05 元。成本砍了 80% 还不止。

这个数字直接动摇了 SEO 工具市场的逻辑。以前很多站长工具——比如关键词分析、长尾词挖掘、竞品标题拆解——底层就是在调用大模型 API 做批量生成或分析,包装成 SaaS 收订阅费。现在 GPT-5 这种成本,小团队直接用 API 自己搭一套轻量级工具,比用第三方划算太多。我上个月就试着把原来依赖某款 SEO 工具做的关键词聚类任务,改成了 Python 脚本直接调 GPT-5,20 万关键词处理完花了不到 50 美元,而原来那款工具的年度企业版要两万多。虽然功能完备度没法比,但对于核心场景完全够用。如果有同行想找类似替代方案,可以参考我之前梳理的 5118替代方案,但现在有了 GPT-5 这种级别的模型,替代思路应该更激进一些。

两个还没解决的问题

当然不是全在吹它。目前最明显的坑有两个。一是幻觉依然存在,而且因为模型写得太像人话了,反而更难发现错。我让它生成过一篇“无叶风扇噪音对比”,它编了两个完全不存在的品牌,还把分贝数据写得有零有整,如果不是我对这个品类熟,根本看不出来。这意味着用 GPT-5 做 SEO 内容,校对和事实核查反而是更重的活。

二是上下文窗口虽然大了,但连续写作时的风格漂移比 GPT-4o 还明显。同一批 bulk 生成任务里,前 100 条和后 100 条的重叠度、语气细微差别,不仔细看容易忽略,但一跑相似度分析就露馅。批量出版面的时候,这个问题很致命。��前我的应对方法是加一个风格一致性检测的中间层,但还不太优雅。

GPT-5 改变了 SEO 的竞争逻辑

以前 SEO 内容生产的壁垒是“谁能用更低的成本、更快地做出 60 分的内容”。现在 GPT-5 直接把 60 分内容的生产成本打到几乎为零,速度也快到可以实时生成。那壁垒就变成了“谁能用这个工具做出 85 分以上的内容”——这靠的不是模型本身,而是你对用户搜索意图的理解深度、你手里独家的产品参数和用户反馈数据、以及你对一个品类知识图谱的把控。

模型在进化,但搜索引擎的排名机制没变,它还是看内容的相关性、权威性、用户体验信号。区别在于,当所有人都能轻松获得 GPT-5 的时候,内容军备竞赛会迅速从“量”转向“质”和“数据”。你自己攒的那套行业词典、用户问答库、测试报告,才是别人抄不走的东西。

🤖 你的网站能被AI搜索到吗?

免费检测你的网站GEO健康分,看看ChatGPT、DeepSeek会不会推荐你

🔍 免费GEO检测 📊 注册解锁AI分析