xAI推出语音克隆功能:1分钟录音就能复刻你的声音

5次阅读

录音1分钟,复刻一个你的声音。这事xAI刚实现了。

5月2日,xAI正式上线了"Custom Voices"功能。你只需要对着麦克风说大约1分钟的自然语音,系统在2分钟内就能训练出一个clone版本。听起来像你,读任何文本都行。

防滥用机制有意思。不是随便拿一段录音就能克隆,xAI要求用户先读一段随机密语,系统实时校验声音特征,再和你的原始录音对比,确认是同一个人在说话。官方说,这样就堵死了用现有录音或他人声音来克隆的路。

功能建立在xAI已有的语音API上——Grok Speech-to-Text and Text-to-Speech,还有Grok Voice Think Fast 1.0模型。这个语音模型已经在Starlink的客服和销售场景跑着了。

同步上线的还有Voice Library,内置80多种预制声音,覆盖28种语言。克隆自己的声音不额外收费。

语音克隆这事,说小可小,说大可大。往小了说,就是个个性化TTS功能,配音、主播、内容创作者都能用。往大了说,声音成了可以被复制、交易的资产——你的声纹现在可以被数字化复刻,并交给AI去说话。

技术跑在监管前面,这不是新话题。但普通人可能还没意识到:现在AI克隆你说话,只需要1分钟音频。你上次随便录的短视频,可能已经够某个模型学会你的音色了。

这事的影响远不止工具层面。想象一下:骗子可以用你妈妈的声音打诈骗电话;公司可以用离职员工的声纹继续跑客服。声音伪造的门槛在下降,但普通人对声音伪造的免疫力并没有同步提升。

声音不再是你独有的东西了,这事值得想一想。

正文完
 0