凌晨两点的成本报警
上个月有个事。凌晨两点,我接到PagerDuty报警——不是服务挂了,是成本超预算30%。排查下来,一个客户的项目在用GPT-4o跑批量内容分类,日均调用量突然从2万涨到8万,API账单直接飙到一天430刀。
客户那边业务量涨了,不能砍。但430刀一天对中型SaaS来说确实肉疼。我开始翻OpenAI的模型列表找替代方案,在几乎要放弃的时候,发现了一个当时还在beta的端点:`gpt-5.5-compact`。
不是GPT-5,也不是GPT-4o-mini的简单升级。文档里写了三句话:相同架构,压缩40%推理成本,延迟降低35%。没有benchmark对比。没有技术博客。就三句话。
第一轮压测:数字不会骗人
我直接拿历史数据建了一个1000条的测试集,覆盖三个维度:
对比对象是GPT-4o(我们当时的主力模型),指标看三个:准确率一致性、P95延迟、单条成本。跑完第一轮数据长这样:
| 任务 | GPT-4o准确率 | Compact准确率 | 4o延迟(P95) | Compact延迟(P95) | 成本降幅 |
|------|-------------|--------------|------------|-----------------|---------|
| 结构化提取 | 94.2% | 93.8% | 2.1s | 1.4s | 42% |
| 多分类 | 91.5% | 89.7% | 1.8s | 1.1s | 44% |
| 文本摘要 | 96.1% | 95.9% | 3.4s | 2.2s | 38% |
结构化提取和摘要几乎没区别。多分类差了1.8个点——不算致命,但在边界case上确实更容易跑偏。
那个差点让我翻车的坑
第三天的线上灰度测试,我放了10%流量到Compact。前两个小时一切正常,延迟降了,成本降了,监控曲线干净得像假数据。
然后客服开始转工单过来——用户说分类结果偶尔会漏标签,同一个内容刷新两次给的标签不一样。
我去翻日志,发现问题出在temperature上。我们用GPT-4o的时候,为了保证一致性,temperature设的是0.1,这个值在GPT-4o上表现很稳定。但Compact对temperature更敏感,0.1下出现非确定性输出的概率比GPT-4o高了接近8倍。
具体来说:相同输入、temperature=0.1,GPT-4o复测100次,输出完全一致的概率是99.2%;Compact是91.5%。看起来差8个点不多,但在每天8万次调用下,意味着将近7000次输出是"不稳定"的。
解法:Compact要设temperature=0才能获得和GPT-4o temperature=0.1相当的确定性。我设成0之后重新跑了500次复测,一致性回到98.7%。但文档里完全没提这回事。如果你也在做大模型推理延迟优化,这个temperature参数在Compact模型上的行为差异值得专门测一下,我踩过的坑就是没提前做确定性压测。
Compact到底是什么?
用了一周之后,我通过API行为反推了一些特性,结合社区零散的信息,大致拼出全貌:
不是蒸馏版。Compact在复杂推理任务上的退化模式跟蒸馏模型不一样。蒸馏模型通常在逻辑链超过5步时突然崩,Compact是逐步退化,更像是用了更激进的量化或者更浅的注意力层数。 共享相同tokenizer。这意味着不需要改预处理管道,token用量跟GPT-4o完全一样,成本降纯粹来自推理端的优化,不是靠少生成token来糊弄你。 上下文窗口缩了。官方参数说128K,但实际测下来超过64K之后,中间信息抽取的召回率从92%掉到78%。GPT-4o在同样的128K下能做到88%。所以长文档场景不建议无脑替换。 系统提示词跟随能力弱了。这个是我在分类任务里发现的。GPT-4o对复杂系统提示词(超过500字的那种,带条件分支和样例)跟随得很好;Compact在提示词超过300字后,遵循率下降了约12%。如果你用了很重的提示词工程,可能需要精简一下。什么时候该用,什么时候不该用
经过三周的线上运行,我总结了一个决策矩阵:
直接替换不用想的场景:这个模型选型逻辑跟我之前分析北京AI大模型备案分析里提到的一个趋势吻合:模型不再卷"最强",而是卷"最合适的性价比区间"。Compact就是这种思路的产物——舍掉你不一定用得到的能力,换你能直接感受到的成本下降。
一个意外的SEO收益
换到Compact之后,延迟从P95的2.1秒降到1.4秒。这0.7秒对用户体验的影响比我预想的大。我们有一个对SEO比较敏感的落地页,后台用了Compact生成动态meta描述,页面LCP下降了约300ms(服务端响应时间缩短直接反映在TTFB上)。
上线两周后,这个页面的平均排名从第8升到了第6,CTR从3.2%升到4.1%。不能说全是模型换代的功劳,但延迟优化确实是Google CWV评分的一个直接因子。
如果你想更系统地了解AI生成内容与SEO排名的关系,我之前用Claude做SEO优化实战的时候踩过不少坑,那篇文章里的策略对GPT生成的场景同样适用——尤其是结构化输出和关键词自然嵌入的平衡点,在Compact上需要重新校准。
最后几个实操建议
如果你决定试,这四条可以直接省你几天的调试时间:
1. temperature直接设0,别信文档里的"低temperature即可",Compact对温度参数敏感度比GPT-4o高一个数量级
2. 提示词控制在300字以内,超过之后遵循率下降,如果必须长提示词,拆成两次调用
3. 64K是实际可用窗口上限,官方说的128K在会上听听就行,上线前用自己的数据测一下中间信息召回率
4. 别在一条调用里混太多任务类型,Compact在多任务混合提示词下的表现不如GPT-4o稳定,单一任务拆开调用反而更省
GPT-5.5 Compact不是一个革命性模型,但它是第一个让我觉得"降本不降质"这件事开始落地的模型。在大部分非关键路径场景里,那40%的成本差拿来干点别的更香。