跑了6个月,OpenAI终于把GPT-5.5放出来了。
4月23日发布的这个新模型,最重要的变化不是更聪明了,而是它终于能替你做事了。
以前你跟ChatGPT聊天,它给你答案,你自己去执行。GPT-5.5不一样——它能自己写代码、跑搜索、分析数据、创建文档,一整套流程自己跑完,中间遇到问题还能自己调整。这才是OpenAI说的agentic真正含义。
跑分数据:代码能力真涨了
独立测试室Artificial Analysis的对比结果:
(1) Terminal-Bench 2.0(代码能力):GPT-5.5跑出82.7%,比上代GPT-5.4的75.1%高出7.6个百分点。Anthropic的Claude Opus 4.7是69.4%,谷歌的Gemini 3.1 Pro是68.5%。差距拉得挺开。
(2) FrontierMath Tier 4(高难度数学):GPT-5.5得分35.4%,Claude Opus 4.7是22.9%,Gemini 3.1 Pro是16.7%。GPT-5.5 Pro版本冲到39.6%。
关键是:OpenAI说速度没牺牲,延迟跟GPT-5.4基本持平,但完成同一个任务消耗的token更少。
谁能用?多少钱?
现在就能用:ChatGPT Plus(20美元/月)、Pro(200美元/月)、Business和Enterprise用户,直接在ChatGPT和Codex里切换到GPT-5.5就行。
API要稍等一下才开放,但价格已经公布了:比GPT-5.4贵一倍。OpenAI自己的说法是,实际使用成本只贵20%,因为新模型效率更高、用的token更少。但doubled token price摆在那儿,对很多开发者来说这笔账要算一算。
问题:幻觉变多了
Artificial Analysis还发现一个值得注意的点:GPT-5.5的幻觉率比竞品高。也就是说,它更敢编。跑得更快更强了,但有时候会更自信地说出不对的东西。
能用和好用之间,还有距离。
真正的问题
这代模型最值得关注的,不是某个具体分数,而是定位变了。之前的AI是给你答案,这代是替你干活。这个转变意味着:AI开始进入工作流,而不是只在工作流旁边打辅助。
对普通用户来说,Plus账号现在就能用到,体验差距可能没那么明显。但对开发者和企业,API价格翻倍这道门槛,是真的要掂量一下的。
多出来的能力,值多出来的钱吗?这个判断,每个人不一样。