xAI推出语音克隆功能：1分钟录音就能复刻你的声音

录音1分钟，复刻一个你的声音。这事xAI刚实现了。

5月2日，xAI正式上线了"Custom Voices"功能。你只需要对着麦克风说大约1分钟的自然语音，系统在2分钟内就能训练出一个clone版本。听起来像你，读任何文本都行。

防滥用机制有意思。不是随便拿一段录音就能克隆，xAI要求用户先读一段随机密语，系统实时校验声音特征，再和你的原始录音对比，确认是同一个人在说话。官方说，这样就堵死了用现有录音或他人声音来克隆的路。

功能建立在xAI已有的语音API上——Grok Speech-to-Text and Text-to-Speech，还有Grok Voice Think Fast 1.0模型。这个语音模型已经在Starlink的客服和销售场景跑着了。

同步上线的还有Voice Library，内置80多种预制声音，覆盖28种语言。克隆自己的声音不额外收费。

语音克隆这事，说小可小，说大可大。往小了说，就是个个性化TTS功能，配音、主播、内容创作者都能用。往大了说，声音成了可以被复制、交易的资产——你的声纹现在可以被数字化复刻，并交给AI去说话。

技术跑在监管前面，这不是新话题。但普通人可能还没意识到：现在AI克隆你说话，只需要1分钟音频。你上次随便录的短视频，可能已经够某个模型学会你的音色了。

这事的影响远不止工具层面。想象一下：骗子可以用你妈妈的声音打诈骗电话；公司可以用离职员工的声纹继续跑客服。声音伪造的门槛在下降，但普通人对声音伪造的免疫力并没有同步提升。

声音不再是你独有的东西了，这事值得想一想。

近期文章