gpt5.1

{

"title": "我让GPT-5.1自问自答了300个问题，它把自己驳倒了87次",

"content": "## 一、37道陷阱题，全对\n\n上周四晚上，我拿到GPT-5.1的内测API。第一件事不是跑分，是把去年让我栽过大跟头的那组“多步推理陷阱题”翻出来。一共37道，去年GPT-5的正确率只有62%。我预期5.1能到75%就算惊喜。\n\n结果跑完一看：37题全对。\n\n这不是重点。重点是我开了verbose模式，把每次推理的内部过程全吐了出来。你会发现每道题模型都生成了两轮对话——第一轮是“解题”，第二轮是“审题”。审题部分毫不客气地指出了第一轮推导中的假设漏洞，然后重新推了一遍。有三道题，审题阶段甚至直接推翻了初始答案。\n\n截了张图发给同事，他回了一句：“这玩意儿给自己整了个Peer Review。”\n\n这就是GPT-5.1和前面所有版本最本质的区别。不是在参数量上又堆了多少，而是推理时原生跑了一套自我审查机制。不是靠外部工具，不是靠提示词技巧，是模型自己在推理层面拆成了“快速生成”和“审慎验证”两个阶段。\n\n## 二、它怎么做到的？拆开看的四个步骤\n\n我抓了300条数学和逻辑指令，把内部token流逐条拆开。步骤很清晰：\n\n1. 初步生成：模型以正常速度输出第一版答案，这一步和GPT-5没什么两样，速度快、自信满满。\n2. 审查态激活：生成结束后，模型切换到一种高不确定性模式（logprob显示某些关键token概率骤降），开始重新走一遍问题定义，并逐一审视第1步中隐含的假设。这个阶段的token消耗大约是第一步的40%-60%。\n3. 差异标记：如果审查态发现推导矛盾或信息缺口，会插入一段内部标记（类似``），触发回退。这一部分在API返回中不可见，但消耗的推理时间会明显增加。\n4. 修正输出：基于审查结果重新生成最终答案，或者将修正过程直接写入最终回复。\n\n也就是说，GPT-5.1把“思考”拆成了生成器和检验器两个异步动作。这比单纯CoT（思维链）狠得多——CoT还只是把解题过程写出来，5.1是在写完以后又自己读了一遍，然后反问自己“刚才这一步有没有问题”。\n\n## 三、延迟多了40%，但用在了刀刃上\n\n跑这300条数据的时候，我特意拉了延时对比。GPT-5.1平均首token时间比GPT-5多出180ms，总完成时间长了大约40%。对于实时对话场景，这个延迟是可感知的。\n\n但换个角度看：在MATH基准的那��题目上，准确率从GPT-5的72%直接拉到89%。多出的这40%时间，换来了17个百分点的绝对提升。如果你干过推理优化，你就知道这个交换比例相当划算。\n\n之前我在调GPT-4级别模型推理管线的时候，核心思路之一就是压缩思维链长度，把延迟从3秒压到800ms。大模型推理延迟优化里详细拆过，思维链的步数和延迟基本是线性关系加一个常数偏移。GPT-5.1的做法相当于主动把链长扩了一半，但是带来了信息验证收益。这就提醒我们：以后做延迟优化，不能无脑砍步数，要看每一步的信息增量。检验步虽然慢，但能防错的，该留就得留。\n\n## 四、写SEO内容这事儿，终于不用全程盯着了\n\n过去一年，我一直用GPT-5生产长文，但有个铁律：数据段落必须人工复核。因为它会在数字、百分比、引用来源上直接“发明”信息。去年用Claude跑某一篇行业报告的时候，这种幻觉让我吃了大亏，数据编得跟真的一样，发出去之后被同行扒出来源根本不存在。那一次教训让我写了那篇Claude SEO优化实战，里面详细总结了GEO场景下怎么把幻觉率从肉眼可见压到勉强能用。\n\n换到GPT-5.1之后，情况变了。\n\n我让它生成一篇关于北京AI大模型备案现状的分析，指定近半年的政策窗口。它输出到一半突然停住，在响应里主动标注：“关于2024年第三批备案数量，目前我引用的公开数据截止到8月，后续可能有更新，建议核查。”然后它自己又给了一个核验建议，列了具体备案编号。这种在生成阶段就能主动标记不确定性的行为，在之前的模型里我从没见过。\n\n这说明自我审查机制不只对数学推理有用，对事实型写作同样生效。模型在输出数字或断言时，内置的审查态会检查该断言是否在训练数据中有充分支撑。如果支撑不够，它不会硬编，而是选择标记出来。\n\n现在跑网站专题页，我的流程变成了：GPT-5.1出稿→人类只盯它标记过的段落→终审。校对时间直接从3小时降到40分钟。\n\n## 五、搭配SEO工具，一条自动化流水线\n\n部署到生产环境以后，我把GPT-5.1接进了日常关键词分析流程。之前我用的关键词挖掘工具是[

📖 相关文章

🤖 你的网站能被AI搜索到吗？