70种语言即时翻译:Gemini 3.5让"鸡同鸭讲"成为历史?

4次阅读

谷歌今天上线了Gemini 3.5 Live Translate。核心功能只有一个:你在说话,它实时翻成另一种语言——保留你的语调、节奏、甚至音色。

过去几年谷歌在发布会上演示过无数次实时翻译,但那时候你需要Pixel手机、需要Pixel Buds耳机,门槛高到普通人根本用不上。去年情况稍微好一点,翻译功能下放到了更多安卓手机和iOS版Google Translate,但还得配特定耳机。

Gemini 3.5把门槛彻底砍了——任何耳机都能用,连耳机都不用。开启"听音模式",直接把手机贴耳朵上,跟接电话一样。唯一问题是:这个模式目前只有安卓支持,iOS用户还是得老老实实戴耳机。

翻译质量怎么样?谷歌说延迟只比正常对话慢几秒,同时保留了讲话人的语调、节奏和音高。翻译腔会变淡,听起来更像真人而不是机器。不过演示视频都是在受控环境下录的,地铁里、嘈杂的街道上效果如何,还得等正式上线后用户反馈。

所有Gemini 3.5生成的音频都内嵌了SynthID水印,目前没法去除。这不是什么坏事——至少明确告诉你:这段音频是AI生成的,不是真人。

第一批用户是企业客户,下个月进Google Meet。Google Translate的安卓和iOS版更新也会跟进。

技术层面,Gemini 3.5属于发布时I/O上亮相的3.5家族。之前只出了Flash版本,Pro版本预计几周内上线。

真正的门槛从来不是技术,是你愿不愿意带个翻译机出门。现在你只需要一部手机。

正文完
 0