ChatGPT 又更新了,这次动静不小。
5月5日,OpenAI 正式把 ChatGPT 的默认模型换成了 GPT-5.5 Instant。这个新模型最大的改进就一句话:胡说八道的次数大幅减少了。
具体减少多少?OpenAI 内部测试显示,在医疗、法律、金融这些高风险领域,GPT-5.5 Instant 的幻觉率比上一代降低了 52.5%。之前用户投诉过的那些对话,准确率提升了 37.3%。
举了个例子:用户上传了一张手写方程式照片,上面有个计算错误。GPT-5.3 Instant 最初同意了用户的解法,后来发现 x=3 代进去不对,但错误地得出"无实数解"的结论。GPT-5.5 Instant 同样先同意了用户的解法,但随后发现了用户在移项时的错误,并正确求解了修正后的一元二次方程。
这种场景很常见——你用 AI 辅助学习或工作,它点头哈腰地顺着你的错误说,结果你自己也被带跑了。新模型能主动发现并纠正你的失误,这在以前是不太可能的。
benchmark 分数也很能打:
(1) 数学竞赛 AIME 2025:65.4% → 81.2%,提升近 16 个点
(2) PhD 级科学推理 GPQA:78.5% → 85.6%
(3) 多模态专家推理 MMMU-Pro:69.2% → 76.0%
(4) 复杂文档解析 OmniDocBench:错误率从 14.6% 降到 12.5%
不只是更准,答案也更短了。
OpenAI 声称新模型减少了不必要的追问,删掉了多余的 emoji,简化了花哨的格式。"同样多的信息,回复更短、更有用。"这句话是 OpenAI 自己的说法,但用过的用户反馈确实指向这个方向。
还有一个功能值得注意:"记忆来源"(Memory Sources)。
现在 ChatGPT 会告诉你,它的回答是基于哪段对话、哪个保存的笔记、哪份上传的文件得出的。你可以逐条检查,发现不对的直接删掉。这个功能解决了一个长期痛点:用户不知道 AI 是在哪"学会"了某件事,想纠正也无从下手。
目前 GPT-5.5 Instant 已经向所有 ChatGPT 用户推送。高级个性化功能(读取过往对话、文件、Gmail)暂时只对 Plus 和 Pro 订阅用户开放,免费用户还需要等几周。
这波更新说明什么?
AI 的方向正在从"能回答"转向"回答得对"。之前各家卷的是能力边界,现在开始卷可靠性了。对普通用户来说,一个不那么容易胡编乱造的 AI,价值比参数多 10% 大得多。
当然,52.5% 这个数字是 OpenAI 自己测的,不是第三方机构的独立验证。信不信,你自己判断。