录一分钟就能克隆你的声音:xAI Custom Voices功能实测

4次阅读

埃隆·马斯克旗下xAI最近上线了一个新功能,叫Custom Voices——你自己的声音,录一分钟,就能克隆出来用。

操作很简单:在xAI控制台录一段大约一分钟的自然语音,系统会在两分钟内生成一个专属语音模型,然后接进文字转语音和语音代理API,直接调用。整个过程普通用户就能完成,不需要懂技术。

克隆出来的声音不会额外收费,而且xAI还配套上线了一个语音库,里面有超过80种预置音色,支持28种语言。不想用自己的声音,直接从库里挑也行。

防滥用机制也有:用户需要先朗读一段随机密语,系统实时比对两次录音的声纹特征,确认是同一个人。xAI表示,这样就无法直接拿现有音频或别人的录音来克隆了。

Custom Voices是xAI语音能力的又一次扩展。之前xAI已经推出了Grok Speech-to-Text和Text-to-Speech API,以及"Grok Voice Think Fast 1.0"语音代理模型——据xAI透露,这个模型已经被Starlink用于客服和销售场景。

语音克隆这件事,技术上早就不是难题。但对于普通消费者来说,过去要找到一款免费、支持中文、又不需要复杂配置的语音克隆工具,并不容易。xAI这次把门槛拉到了录一分钟语音就能用的程度——这对做内容创作、有声书、语音助手定制的人来说,是真的能用起来的东西。

当然,一分钟就能克隆声音,也意味着门槛低到可以被滥用。xAI的密语验证是一个缓解措施,但声音伪造的技术演进速度,远比防护措施快。这一点,没有例外。

正文完
 0