格罗克语音克隆来了:上传1分钟声音,两分钟后就能用"自己的声音"说话。
xAI 最近上线了一个新功能叫 Custom Voices,普通人也能克隆自己的声音了。整个过程很快:你对着麦克风说大约 1 分钟的自然对话,系统在 2 分钟内就能训练出一个跟你音色一模一样的语音模型。
这个克隆声音可以接到格罗克的文字转语音和语音代理 API 上。xAI 还同步上线了一个语音库,内置 80 多种预置声音,覆盖 28 种语言。开发者或者创作者可以直接调用,不需要额外付费。
隐私方面 xAI 下了功夫。用户在克隆前需要先朗读一段随机口令,系统会实时比对两次录音的声纹特征,确保是同一个人在操作。xAI 声称这个流程让用别人的录音来克隆、或者直接拿现成音频复制变得几乎不可能。
Custom Voices 是 xAI 语音能力的一次整合升级。之前他们分别推出了格罗克语音转文字和文字转语音 API,以及 Grok Voice Think Fast 1.0 语音代理模型。xAI 自己在公告里透露,Think Fast 1.0 已经在为 Starlink 的客服和销售场景提供服务支撑。
语音克隆这件事,以前只有专业配音工作室花大价钱才能做。现在门槛一下子降到了 1 分钟录音加 2 分钟等待。免费、门槛低、防滥用——这三个条件同时成立,才是这件事真正值得关注的地方。
想象一下:配音博主不用再一遍遍录口型,外语视频可以用自己声音做本地化,个人语音助手可以用你自己的声音来播报天气。这个场景离普通人并不远。
当然,风险也随之而来。xAI 做了防护,但类似的技术在其他平台是否有同样的保护措施,就不好说了。声音和指纹一样,每个人都是独一无二的——当你的声音可以被机器完美复制,滥用起来会有什么后果?
技术跑在监管前面,从来都是这样。你怎么看待这件事?