GPT-5.5跑分暴涨7.6%:但OpenAI把API价格也翻倍了

5次阅读

跑了6个月,OpenAI终于把GPT-5.5放出来了。

4月23日发布的这个新模型,最重要的变化不是更聪明了,而是它终于能替你做事了。

以前你跟ChatGPT聊天,它给你答案,你自己去执行。GPT-5.5不一样——它能自己写代码、跑搜索、分析数据、创建文档,一整套流程自己跑完,中间遇到问题还能自己调整。这才是OpenAI说的agentic真正含义。

跑分数据:代码能力真涨了

独立测试室Artificial Analysis的对比结果:

(1) Terminal-Bench 2.0(代码能力):GPT-5.5跑出82.7%,比上代GPT-5.4的75.1%高出7.6个百分点。Anthropic的Claude Opus 4.7是69.4%,谷歌的Gemini 3.1 Pro是68.5%。差距拉得挺开。

(2) FrontierMath Tier 4(高难度数学):GPT-5.5得分35.4%,Claude Opus 4.7是22.9%,Gemini 3.1 Pro是16.7%。GPT-5.5 Pro版本冲到39.6%。

关键是:OpenAI说速度没牺牲,延迟跟GPT-5.4基本持平,但完成同一个任务消耗的token更少。

谁能用?多少钱?

现在就能用:ChatGPT Plus(20美元/月)、Pro(200美元/月)、Business和Enterprise用户,直接在ChatGPT和Codex里切换到GPT-5.5就行。

API要稍等一下才开放,但价格已经公布了:比GPT-5.4贵一倍。OpenAI自己的说法是,实际使用成本只贵20%,因为新模型效率更高、用的token更少。但doubled token price摆在那儿,对很多开发者来说这笔账要算一算。

问题:幻觉变多了

Artificial Analysis还发现一个值得注意的点:GPT-5.5的幻觉率比竞品高。也就是说,它更敢编。跑得更快更强了,但有时候会更自信地说出不对的东西。

能用和好用之间,还有距离。

真正的问题

这代模型最值得关注的,不是某个具体分数,而是定位变了。之前的AI是给你答案,这代是替你干活。这个转变意味着:AI开始进入工作流,而不是只在工作流旁边打辅助。

对普通用户来说,Plus账号现在就能用到,体验差距可能没那么明显。但对开发者和企业,API价格翻倍这道门槛,是真的要掂量一下的。

多出来的能力,值多出来的钱吗?这个判断,每个人不一样。

正文完
 0