70种语言同声传译：谷歌把"巴别塔"往前推了一大步

你说话，它翻译，几秒钟后对方听到你的话——不是等你说完了才开始，是你说，它就翻，边说边出。谷歌最近上线的 Gemini 3.5 Live Translate，把实时语音翻译带到了70多种语言。

这事以前有多麻烦，你可能记得。开会时老外说一句话，你得等他全说完，机器才能开始翻译，屏幕上的文字跳出来，你们再接着聊下一个。来回几个回合，时间全耽误在等的过程中。对话变成乒乓球赛，一来一回，节奏全断。

Gemini 3.5 换了种做法。不是等一句话说完再翻，而是你一边说，它一边翻，输出和输入同时进行。70多种语言，2000多种语言组合，塞进一场 Google Meet 里。以前只支持5种语言，还几乎都要绕道英语。现在70种随时切换，不需要你手动选。

还有一个细节值得注意：它保留了说话人的音色。不是那种听着像机器人的合成音，而是你原来的声音，语调、节奏、轻重，都还在。这个改变看起来小，实际体验差别很大。一场多人大会议，你能听出来谁在说话，不用对着一个统一的合成音去猜。

技术层面，这次不是简单提速。以前的翻译是"听完→翻→说"三步顺序执行，Gemini 3.5 把这三个步骤并行处理，所以延迟从一整句话的间隔缩短到几秒钟。这是架构层面的变化，不是调调参数就能做到的。

已经能用的地方：Google Translate，安卓和 iOS 都能更新，今天装上就能试。Google Meet 的企业用户预览版这个月也开始推了。开发者可以走 Gemini Live API 直接接进自己的应用。

需要留意的限制：翻译质量最好的还是英语、西班牙语、中文、日语、韩语、越南语这几个大语种，小语种的表现会差一些，正式场合用之前最好先测试一下。另外，音频要走谷歌的云端处理，医疗、金融、法律这些受监管行业要评估数据合规风险。

这事对商业的影响不只是多了一个翻译功能。谷歌实际上是在说：语言这件事，以后应该是基础设施，你不用管它，它在后台自动跑。多语言团队以后开会，不需要专门的翻译在旁边盯着。

当然，70多种语言流畅对话这件事还没完全实现。但方向已经很清楚了——语言壁垒正在以肉眼可见的速度变薄。

近期文章