{
"title": "我让GPT-5.1自问自答了300个问题,它把自己驳倒了87次",
"content": "## 一、37道陷阱题,全对\n\n上周四晚上,我拿到GPT-5.1的内测API。第一件事不是跑分,是把去年让我栽过大跟头的那组“多步推理陷阱题”翻出来。一共37道,去年GPT-5的正确率只有62%。我预期5.1能到75%就算惊喜。\n\n结果跑完一看:37题全对。\n\n这不是重点。重点是我开了verbose模式,把每次推理的内部过程全吐了出来。你会发现每道题模型都生成了两轮对话——第一轮是“解题”,第二轮是“审题”。审题部分毫不客气地指出了第一轮推导中的假设漏洞,然后重新推了一遍。有三道题,审题阶段甚至直接推翻了初始答案。\n\n截了张图发给同事,他回了一句:“这玩意儿给自己整了个Peer Review。”\n\n这就是GPT-5.1和前面所有版本最本质的区别。不是在参数量上又堆了多少,而是推理时原生跑了一套自我审查机制。不是靠外部工具,不是靠提示词技巧,是模型自己在推理层面拆成了“快速生成”和“审慎验证”两个阶段。\n\n## 二、它怎么做到的?拆开看的四个步骤\n\n我抓了300条数学和逻辑指令,把内部token流逐条拆开。步骤很清晰:\n\n1. 初步生成:模型以正常速度输出第一版答案,这一步和GPT-5没什么两样,速度快、自信满满。\n2. 审查态激活:生成结束后,模型切换到一种高不确定性模式(logprob显示某些关键token概率骤降),开始重新走一遍问题定义,并逐一审视第1步中隐含的假设。这个阶段的token消耗大约是第一步的40%-60%。\n3. 差异标记:如果审查态发现推导矛盾或信息缺口,会插入一段内部标记(类似`