GPT-5.6灰度测试已经开始：90%概率月底发布，150万Token上下文

OpenAI还没官宣，但GPT-5.6已经悄悄在ChatGPT里灰度测试了。

过去一周，大量用户发现ChatGPT的响应质量明显变好——尤其是网页设计、3D渲染和前端代码生成。有人贴出对比图，效果差异肉眼可见。更关键的是，AI研究员Leo在X上透露：部分Pro订阅用户点选GPT-5.5 Pro时，实际上收到的已经是GPT-5.6的回复。

这不是空穴来风。

最强信号来自预测市场Polymarket。交易员们在上面押了96万多美元，90%概率指向6月22日至28日发布。首席科学家雅库布·帕乔奇（Jakub Pachocki）也在6月11日给内部员工发了备忘录，原话是：GPT-5.6相比GPT-5.5有"实质性提升"。这是第一次有OpenAI高管公开提到这个模型。

几个核心参数已经泄露：

(1) 上下文窗口从GPT-5.5的100万Token暴增到150万Token，幅度达43%。相当于能一口气读完一整本书，或者在单次对话里处理整个代码库。

(2) Agent编程能力大幅提升，100步以上的工具调用任务可靠性更高。

(3) 前端和UI生成能力显著增强，之前需要复杂提示词才能搞定的视觉效果，现在简单描述就能输出。

(4) 代号为"kindle-alpha"，据Testing Catalog报道，Pro版已经在部分订阅者后台出现。

当然也有杂音。部分测试者反馈，同一个提示词在kindle版本上表现反而不如更早的内测版本。这让一些开发者担心正式发布时会不会出现性能回退。

对OpenAI来说，时间点很微妙。公司5月底已经向SEC秘密提交了上市文件，高盛和摩根士丹利承销，估值可能达到1万亿美元。GPT-5.6是上市前最后一张牌——必须够强。

竞争环境也不容乐观。Anthropic在5月28日发布了Claude Opus 4.8，支持1000个并行子代理的动态工作流。中国的MiniMax M3模型在SWE-Bench Pro上已经超越了GPT-5.5，开源GLM-5.2跟Claude Opus 4.8只差1个百分点。

一句话：OpenAI现在必须跑得更快，停下来就会被超。

GPT-5.6灰度测试已经开始：90%概率月底发布，150万Token上下文

近期文章

近期评论