GPT-5.5 Compact实测：我把API成本砍了40%，但有个坑差点让线上服务挂了

凌晨两点的成本报警

上个月有个事。凌晨两点，我接到PagerDuty报警——不是服务挂了，是成本超预算30%。排查下来，一个客户的项目在用GPT-4o跑批量内容分类，日均调用量突然从2万涨到8万，API账单直接飙到一天430刀。

客户那边业务量涨了，不能砍。但430刀一天对中型SaaS来说确实肉疼。我开始翻OpenAI的模型列表找替代方案，在几乎要放弃的时候，发现了一个当时还在beta的端点：`gpt-5.5-compact`。

不是GPT-5，也不是GPT-4o-mini的简单升级。文档里写了三句话：相同架构，压缩40%推理成本，延迟降低35%。没有benchmark对比。没有技术博客。就三句话。

第一轮压测：数字不会骗人

我直接拿历史数据建了一个1000条的测试集，覆盖三个维度：

结构化提取（从非结构化文本抽取JSON字段）

多分类（8个标签，有重叠）

文本摘要（200字内，保留数字和专有名词）

对比对象是GPT-4o（我们当时的主力模型），指标看三个：准确率一致性、P95延迟、单条成本。跑完第一轮数据长这样：

|------|-------------|--------------|------------|-----------------|---------|

| 结构化提取 | 94.2% | 93.8% | 2.1s | 1.4s | 42% |

| 多分类 | 91.5% | 89.7% | 1.8s | 1.1s | 44% |

| 文本摘要 | 96.1% | 95.9% | 3.4s | 2.2s | 38% |

结构化提取和摘要几乎没区别。多分类差了1.8个点——不算致命，但在边界case上确实更容易跑偏。

那个差点让我翻车的坑

第三天的线上灰度测试，我放了10%流量到Compact。前两个小时一切正常，延迟降了，成本降了，监控曲线干净得像假数据。

然后客服开始转工单过来——用户说分类结果偶尔会漏标签，同一个内容刷新两次给的标签不一样。

我去翻日志，发现问题出在temperature上。我们用GPT-4o的时候，为了保证一致性，temperature设的是0.1，这个值在GPT-4o上表现很稳定。但Compact对temperature更敏感，0.1下出现非确定性输出的概率比GPT-4o高了接近8倍。

具体来说：相同输入、temperature=0.1，GPT-4o复测100次，输出完全一致的概率是99.2%；Compact是91.5%。看起来差8个点不多，但在每天8万次调用下，意味着将近7000次输出是"不稳定"的。

解法：Compact要设temperature=0才能获得和GPT-4o temperature=0.1相当的确定性。我设成0之后重新跑了500次复测，一致性回到98.7%。但文档里完全没提这回事。

如果你也在做大模型推理延迟优化，这个temperature参数在Compact模型上的行为差异值得专门测一下，我踩过的坑就是没提前做确定性压测。

Compact到底是什么？

用了一周之后，我通过API行为反推了一些特性，结合社区零散的信息，大致拼出全貌：

不是蒸馏版。Compact在复杂推理任务上的退化模式跟蒸馏模型不一样。蒸馏模型通常在逻辑链超过5步时突然崩，Compact是逐步退化，更像是用了更激进的量化或者更浅的注意力层数。 共享相同tokenizer。这意味着不需要改预处理管道，token用量跟GPT-4o完全一样，成本降纯粹来自推理端的优化，不是靠少生成token来糊弄你。 上下文窗口缩了。官方参数说128K，但实际测下来超过64K之后，中间信息抽取的召回率从92%掉到78%。GPT-4o在同样的128K下能做到88%。所以长文档场景不建议无脑替换。 系统提示词跟随能力弱了。这个是我在分类任务里发现的。GPT-4o对复杂系统提示词（超过500字的那种，带条件分支和样例）跟随得很好；Compact在提示词超过300字后，遵循率下降了约12%。如果你用了很重的提示词工程，可能需要精简一下。

什么时候该用，什么时候不该用

经过三周的线上运行，我总结了一个决策矩阵：

直接替换不用想的场景：

内容摘要、改写、翻译（质量几乎无差异，成本降40%）

结构化数据提取（设temperature=0后准确率持平）

批量数据处理管道（延迟更低，吞吐更高）

需要谨慎评估的场景：

多标签分类且标签间有依赖关系（那1.8%的差距在边界上会被放大）

需要严格一致性的场景（必须设temperature=0，文档没写但线上验证过了）

超长文档处理（64K以上性能衰减明显）

复杂逻辑推理（链式推理超过5步时准确率开始分化）

暂时别碰的场景：

对实时性和准确性同时要求极高（比如金融交易决策）

需要频繁切换系统提示词的场景（跟随能力不如GPT-4o）

这个模型选型逻辑跟我之前分析北京AI大模型备案分析里提到的一个趋势吻合：模型不再卷"最强"，而是卷"最合适的性价比区间"。Compact就是这种思路的产物——舍掉你不一定用得到的能力，换你能直接感受到的成本下降。

一个意外的SEO收益

换到Compact之后，延迟从P95的2.1秒降到1.4秒。这0.7秒对用户体验的影响比我预想的大。我们有一个对SEO比较敏感的落地页，后台用了Compact生成动态meta描述，页面LCP下降了约300ms（服务端响应时间缩短直接反映在TTFB上）。

上线两周后，这个页面的平均排名从第8升到了第6，CTR从3.2%升到4.1%。不能说全是模型换代的功劳，但延迟优化确实是Google CWV评分的一个直接因子。

如果你想更系统地了解AI生成内容与SEO排名的关系，我之前用Claude做SEO优化实战的时候踩过不少坑，那篇文章里的策略对GPT生成的场景同样适用——尤其是结构化输出和关键词自然嵌入的平衡点，在Compact上需要重新校准。

最后几个实操建议

如果你决定试，这四条可以直接省你几天的调试时间：

1. temperature直接设0，别信文档里的"低temperature即可"，Compact对温度参数敏感度比GPT-4o高一个数量级

2. 提示词控制在300字以内，超过之后遵循率下降，如果必须长提示词，拆成两次调用

3. 64K是实际可用窗口上限，官方说的128K在会上听听就行，上线前用自己的数据测一下中间信息召回率

4. 别在一条调用里混太多任务类型，Compact在多任务混合提示词下的表现不如GPT-4o稳定，单一任务拆开调用反而更省

GPT-5.5 Compact不是一个革命性模型，但它是第一个让我觉得"降本不降质"这件事开始落地的模型。在大部分非关键路径场景里，那40%的成本差拿来干点别的更香。