谷歌实时翻译支持70+语言:口语还没说完,对方已经听到中文了

4次阅读

你有没有过这种经历:和外国客户开了半小时会,回来发现一半内容靠猜?或者出国旅游,点菜只能指着隔壁桌的图片?谷歌刚刚上了一款工具,可能要把这两种尴尬一起解决了。

6月14日,谷歌正式推出Gemini 3.5 Live Translate,中文叫"实时语音翻译"。支持70多种语言同步互译,你一边说话,它一边翻译,对方耳机里几乎是同时收到翻译后的声音。

不是等你说完整句话才开始翻。是你说到一半,翻译就出来了。

这次升级了什么?

老版本Google Meet的语音翻译只支持5种语言,而且要等说话人完全停下来,才会开始翻译。两三个人开会的时候,节奏就变成"说一句等三秒再说下一句",聊起来特别别扭。

Gemini 3.5把这三件事全改了:

(1) 语言数量从5种增加到70多种,覆盖全球主要市场
(2) 翻译从排队式变成并行处理——你一边说他一边翻,几乎感觉不到延迟
(3) 声音不再变成机器人音色,会保留原始说话人的声调特征

第(3)点很关键。以前开多人大仑议,不同国家的人说话你只能靠想象分辨是谁。现在你能听出谁在说话,沟通效率完全不一样。

现在能用吗?

普通用户今天就能用:打开Google Translate App,点击左下角"实时翻译",插上耳机,对着说话就行。

企业用户(Google Meet企业版)6月开始私测,正式开放要等今年晚些时候。

开发者可以立刻接入:通过Gemini Live API或Google AI Studio,直接在App里搭建实时语音翻译功能。

别高兴太早,有几个坑

一是语言质量不均衡。英语、西班牙语、中文、日语、韩语这些大语种翻译质量很稳,但一些小语种效果会差一些。重要商务会议前,最好先测试一遍。

二是延迟不是零。说是"只有几秒",但如果你是打越洋电话谈合同,这几秒可能会让你分心。

三是数据合规问题。翻译在谷歌云端处理,医疗、金融、法律这些行业用起来要谨慎——客户说的话传送到第三方服务器,内部的合规部门未必能接受。

意味着什么

这不只是翻译工具升级。谷歌在明确表态:语言本身应该像水电网一样,你不需要主动去用它,它就在后台自动运行。

对企业来说,选的不再是"哪款翻译软件",而是"哪家AI平台承载我们整个通讯系统"。一旦选了,翻译就变成了基础设施,而不是一个独立功能。

对普通人来说,出差、旅游、多语言团队协作这几个场景,体验会直接上一个台阶。以前你可能因为语言障碍推掉的会议,以后可能就不存在了。

技术还不完美,但方向已经定了。

正文完
 0