语音AI说了这么多年,大部分人印象里还是"hey Siri帮我设个闹钟"这种级别。GPT-4时代虽然能对话,但反应慢、容易出错、一对话就露馅。真正好用的语音助手?还没影儿。
5月7日,OpenAI发布了一组新语音模型,情况开始变了。
核心三个产品:
GPT-Realtime-2——接入了GPT-5级别推理能力的语音模型。简单说,它不只是把你的话转成文字再回答,而是能像人一样实时思考、理解复杂指令、保持多轮对话连贯性。之前版本的语音助手遇到复杂请求就卡壳,这个版本据说能处理"更复杂用户请求"。
GPT-Realtime-Translate——实时翻译,支持70多种语言输入、13种语言输出。按OpenAI的说法,翻译速度能"跟上对话节奏",不是等你说完了再翻译,而是边说边翻、边翻边回。这个对出国旅游、商务谈判、跨境客服场景是刚需。
GPT-Realtime-Whisper——实时语音转文字。这个其实已经存在一段时间了,但集成进API后,开发者可以直接在应用里加入实时字幕、会议记录、直播翻译这些功能。
OpenAI自己的说法是:这些模型把实时音频从"简单的一问一答"变成了"真正能干活的语音界面——边听、边想、边翻译、边转写、边执行"。
对普通人来说,这意味着什么?
你的手机APP、旅游工具、会议软件,以后可能内置一个"同声传译+语音助手"二合一的功能。你说中文,对方听到西班牙语,对方回一句西班牙语,你听到中文——全程无延迟。这已经不是概念了,API已经开放,开发者可以接入了。
当然,OpenAI也承认有被滥用的风险。他们加了防护机制,检测到违规内容会自动中断对话。
现在这些功能通过OpenAI Realtime API提供服务。翻译和转写按分钟计费,GPT-Realtime-2按token消耗计费。
语音AI喊了快十年,这次可能真的要变实用了。