网易有道开源 Confucius4-TTS,3 秒音频即可克隆音色

  网易有道昨日宣布推出「子曰 4.0」TTS 语音合成引擎 Confucius4-TTS。官方称,这是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

  Confucius4-TTS 支持零样本语音克隆。用户提供 3 秒音频素材后,无需参考文本和前期训练,模型即可完成音色克隆;官方称克隆音色与原声相似度超过 85%,克隆任务准确度达 97%。

  模型支持中文、英语、西班牙语、法语、德语、韩语、泰语、越南语等 14 种语言。官方称,其重点能力是跨语种发音:上传中文音频后,AI 可以用该音色生成日语、英语等外语语音。

  💻 GitHub: github.com/netease-youdao/Confucius4-TTS