我拿GPT-5.5和5.4跑了4000次任务，测出了三个真区别

上周把公司客服意图分类 + 回复生成的评测集翻出来，同样的1000条对话，跑了两遍。一次挂GPT-5.4，一次挂GPT-5.5，API都走官方，temperature=0，所有prompt一模一样。跑完我对着Excel看了半小时，三个差别是实打实的。

不是跑分那种0.1%的差距。是生产环境要改代码的那种。

延迟降了一半，但不是每类任务都降

先说最直接的。1000条任务跑下来，5.4平均首token时间1.27秒，完整回复生成平均2.3秒。5.5的首token掉到0.61秒，完整生成0.98秒。

但这里有个很容易被忽略的点——我拆开看，分类任务和简单提取（比如抽姓名、订单号）加速最明显，延迟砍掉60%以上。可一到需要链式推理的长回复，比如根据历史对话推断用户真实意图再生成解释，5.5的延迟还是比短任务高出不少，只是比5.4好一截，没那么夸张。

这种感觉就像我去年做的那次延迟优化——我在《大模型推理延迟优化》里把GPT-4级模型的延迟从3秒压到800毫秒，核心思路就是区分简单任务和复杂任务，用不同的计算路径。5.5的路数看起来很像，底层可能把投机解码或分层推理做得更激进了，短平快任务走了快车道。

这意味着如果你只做简单分类或实体提取，换5.5立省一半延迟和费用；但如果你依赖复杂推理链，还要自己测一遍，别直接套别人的结论。

这次评测里我故意塞了30条长对话，每条塞满8万到12万token（业务文档混聊天记录）。5.4在超过8万token后，意图分类准确率从95%跌到81%，中间位置的指令漏跟概率明显上升。幻觉率从短文本的1.2%飙到4.7%。

5.5在同样的长对话上，准确率稳在93%，幻觉率0.9%。这个差距比我想的大。我专门回查了输出，发现5.5对“靠后指令”的抓取更强。5.4经常忽略文末的约束，但5.5几乎全部遵循。

我之前用Claude做长文写作时也碰到过这类位置偏差，在《Claude SEO优化实战》里我拆解过：模型对长prompt的不同位置敏感度差异巨大，有时候你把关键约束挪到末尾反而被它忽略。5.5似乎把这一块做了专项优化，注意力机制对尾部信息的保持��显著提高了。

对我这种经常给模型塞一堆产品文档然后让模型反查的人，这点比延迟还重要。

我跑GPT-5.4的JSON模式时，一直有个痛点：偶尔输出里会多出一个换行符，或者数字字段变成字符串'123'而非123。概率不高，大概每50条出现一次，但自动化流水线直接崩。

5.5我跑完1000条JSON结构化输出，0次格式异常。连之前容易翻车的嵌套数组字段都稳稳的。我怀疑他们在对齐阶段拿更多结构化数据做了RLHF，或者解码器加了更强的格式约束。

这个改进对我这种把模型输出直接喂进数据库的人就是救命。以前得写异常处理逻辑try-catch，现在可以少写一层。

第一个坑：5.5的价格比5.4贵了40%（输入token算上缓存后的价格差距），简单分类任务延迟降了，但成本算下来因为单价高，总花费反而多了15%。如果你的任务用5.4的延迟也能接受，没必要换。

第二个坑：5.5对指令的敏感度变了。我之前精心调好的一套few-shot提示词，在5.4上准确率95%，迁移到5.5直接掉到89%。原因不是模型变笨了，而是5.5对指令里的小矛盾更较真，会把模糊之处放大成不确定性。我调了三版prompt才追回到97%。

所以迁移不是无缝的。每次换模型都得重跑全套评测，别信官方的“增强”就盲目全切。我这4000次任务跑下来，结论很简单：长文本、结构化输出、简单任务加速是实打实的提升，但复杂推理上的延迟性价比、价格敏感场景、老prompt的适配成本，你得自己掂。