GPT-5.5来了:编程能力暴涨,但价格也翻倍了。
4月23日,OpenAI正式发布GPT-5.5。这是一款主打自主代理的模型,能自己写代码、搜资料、分析数据、跨工具协作——你只要下一个指令,它自己干完一整套活。
OpenAI在公告里直接说:这是新一代智能,专门为真实工作场景设计。
基准测试赢了,但还不够完美
GPT-5.5性能确实强。
在编程代理测试Terminal-Bench 2.0上,GPT-5.5得分82.7%,比上代GPT-5.4(75.1%)高出7.6个百分点。Anthropic的Claude Opus 4.7得分69.4%,谷歌双子座3.1 Pro只有68.5%。
高难数学测试FrontierMath Tier 4上,GPT-5.5拿到35.4%,Claude Opus 4.7是22.9%,双子座3.1 Pro只有16.7%。Pro版本更是冲到39.6%。
但有一点需要提醒:独立测试机构Artificial Analysis发现,GPT-5.5的幻觉问题依然明显,偶尔会一本正经地胡说八道。The Verge的测试者也指出,问一个关于Steam Controller的问题,AI直接答错了。
价格翻倍:你多掏的钱去哪了?
GPT-5.5 API价格是GPT-5.4的两倍。
表面上看起来贵,但Artificial Analysis的实际测算显示,因为单个任务消耗的token更少,有效成本大约只比GPT-5.4高20%左右。OpenAI首席产品官Mario Rodriguez说:现在用户问一个简单问题和AI自主编程几小时,消耗的资源是一样的。这就是GitHub Copilot下个月要改用按token计费的背景。
不过有个好消息:代码补全(code completions)不消耗任何积分。
谁先用?
即日起,ChatGPT和Codex的Plus、Pro、Business、Enterprise用户都能用到GPT-5.5。免费用户暂时没有。API接口将在近期开放。
简单说:这是一次真实的能力升级,不是PPT发布会。编程、搜索、数据分析这些干活的场景,GPT-5.5确实大幅领先。但如果你不需要AI帮你自主完成复杂任务,GPT-5.4甚至GPT-5.4 Pro依然够用。
贵了,也是真的贵了。