GPT-5.6灰度测试已经开始:90%概率月底发布,150万Token上下文

5次阅读

OpenAI还没官宣,但GPT-5.6已经悄悄在ChatGPT里灰度测试了。

过去一周,大量用户发现ChatGPT的响应质量明显变好——尤其是网页设计、3D渲染和前端代码生成。有人贴出对比图,效果差异肉眼可见。更关键的是,AI研究员Leo在X上透露:部分Pro订阅用户点选GPT-5.5 Pro时,实际上收到的已经是GPT-5.6的回复。

这不是空穴来风。

最强信号来自预测市场Polymarket。交易员们在上面押了96万多美元,90%概率指向6月22日至28日发布。首席科学家雅库布·帕乔奇(Jakub Pachocki)也在6月11日给内部员工发了备忘录,原话是:GPT-5.6相比GPT-5.5有"实质性提升"。这是第一次有OpenAI高管公开提到这个模型。

几个核心参数已经泄露:

(1) 上下文窗口从GPT-5.5的100万Token暴增到150万Token,幅度达43%。相当于能一口气读完一整本书,或者在单次对话里处理整个代码库。

(2) Agent编程能力大幅提升,100步以上的工具调用任务可靠性更高。

(3) 前端和UI生成能力显著增强,之前需要复杂提示词才能搞定的视觉效果,现在简单描述就能输出。

(4) 代号为"kindle-alpha",据Testing Catalog报道,Pro版已经在部分订阅者后台出现。

当然也有杂音。部分测试者反馈,同一个提示词在kindle版本上表现反而不如更早的内测版本。这让一些开发者担心正式发布时会不会出现性能回退。

对OpenAI来说,时间点很微妙。公司5月底已经向SEC秘密提交了上市文件,高盛和摩根士丹利承销,估值可能达到1万亿美元。GPT-5.6是上市前最后一张牌——必须够强。

竞争环境也不容乐观。Anthropic在5月28日发布了Claude Opus 4.8,支持1000个并行子代理的动态工作流。中国的MiniMax M3模型在SWE-Bench Pro上已经超越了GPT-5.5,开源GLM-5.2跟Claude Opus 4.8只差1个百分点。

一句话:OpenAI现在必须跑得更快,停下来就会被超。

正文完
 0