格罗克语音克隆来了：1分钟声音，2分钟建模，普通人也能用

格罗克语音克隆来了：上传1分钟声音，两分钟后就能用"自己的声音"说话。

xAI 最近上线了一个新功能叫 Custom Voices，普通人也能克隆自己的声音了。整个过程很快：你对着麦克风说大约 1 分钟的自然对话，系统在 2 分钟内就能训练出一个跟你音色一模一样的语音模型。

这个克隆声音可以接到格罗克的文字转语音和语音代理 API 上。xAI 还同步上线了一个语音库，内置 80 多种预置声音，覆盖 28 种语言。开发者或者创作者可以直接调用，不需要额外付费。

隐私方面 xAI 下了功夫。用户在克隆前需要先朗读一段随机口令，系统会实时比对两次录音的声纹特征，确保是同一个人在操作。xAI 声称这个流程让用别人的录音来克隆、或者直接拿现成音频复制变得几乎不可能。

Custom Voices 是 xAI 语音能力的一次整合升级。之前他们分别推出了格罗克语音转文字和文字转语音 API，以及 Grok Voice Think Fast 1.0 语音代理模型。xAI 自己在公告里透露，Think Fast 1.0 已经在为 Starlink 的客服和销售场景提供服务支撑。

语音克隆这件事，以前只有专业配音工作室花大价钱才能做。现在门槛一下子降到了 1 分钟录音加 2 分钟等待。免费、门槛低、防滥用——这三个条件同时成立，才是这件事真正值得关注的地方。

想象一下：配音博主不用再一遍遍录口型，外语视频可以用自己声音做本地化，个人语音助手可以用你自己的声音来播报天气。这个场景离普通人并不远。

当然，风险也随之而来。xAI 做了防护，但类似的技术在其他平台是否有同样的保护措施，就不好说了。声音和指纹一样，每个人都是独一无二的——当你的声音可以被机器完美复制，滥用起来会有什么后果？

技术跑在监管前面，从来都是这样。你怎么看待这件事？

格罗克语音克隆来了：1分钟声音，2分钟建模，普通人也能用

近期文章

近期评论