你说话,它翻译,几秒钟后对方听到你的话——不是等你说完了才开始,是你说,它就翻,边说边出。谷歌最近上线的 Gemini 3.5 Live Translate,把实时语音翻译带到了70多种语言。
这事以前有多麻烦,你可能记得。开会时老外说一句话,你得等他全说完,机器才能开始翻译,屏幕上的文字跳出来,你们再接着聊下一个。来回几个回合,时间全耽误在等的过程中。对话变成乒乓球赛,一来一回,节奏全断。
Gemini 3.5 换了种做法。不是等一句话说完再翻,而是你一边说,它一边翻,输出和输入同时进行。70多种语言,2000多种语言组合,塞进一场 Google Meet 里。以前只支持5种语言,还几乎都要绕道英语。现在70种随时切换,不需要你手动选。
还有一个细节值得注意:它保留了说话人的音色。不是那种听着像机器人的合成音,而是你原来的声音,语调、节奏、轻重,都还在。这个改变看起来小,实际体验差别很大。一场多人大会议,你能听出来谁在说话,不用对着一个统一的合成音去猜。
技术层面,这次不是简单提速。以前的翻译是"听完→翻→说"三步顺序执行,Gemini 3.5 把这三个步骤并行处理,所以延迟从一整句话的间隔缩短到几秒钟。这是架构层面的变化,不是调调参数就能做到的。
已经能用的地方:Google Translate,安卓和 iOS 都能更新,今天装上就能试。Google Meet 的企业用户预览版这个月也开始推了。开发者可以走 Gemini Live API 直接接进自己的应用。
需要留意的限制:翻译质量最好的还是英语、西班牙语、中文、日语、韩语、越南语这几个大语种,小语种的表现会差一些,正式场合用之前最好先测试一下。另外,音频要走谷歌的云端处理,医疗、金融、法律这些受监管行业要评估数据合规风险。
这事对商业的影响不只是多了一个翻译功能。谷歌实际上是在说:语言这件事,以后应该是基础设施,你不用管它,它在后台自动跑。多语言团队以后开会,不需要专门的翻译在旁边盯着。
当然,70多种语言流畅对话这件事还没完全实现。但方向已经很清楚了——语言壁垒正在以肉眼可见的速度变薄。