微软正式开源了其最新的文本转语音(TTS)模型 VibeVoice-1.5B,该模型主打 “超长、多人、高压缩”,单次即可生成长达 90 分钟的连续语音,并支持最多 4 位说话人同时发声。
VibeVoice-1.5B 的核心创新在于其双 Tokenizer 设计。模型分为两个独立但协同工作的模块。
1. 声学 Tokenizer:负责保留声音特征并实现高压缩率
采用变分自编码器(VAE)的对称编码 - 解码结构,解决了传统 VAE 在长序列建模中容易出现的 “方差坍缩” 问题(即数据多样性丢失)。
通过 7 阶段的改进型 Transformer 模块和 1D 深度可分离因果卷积,将 24kHz 采样率的原始音频压缩为每秒仅 7.5 个潜在向量,累计压缩率达 3200 倍,压缩效率是主流 Encodec 模型的 80 倍。
2. 语义 Tokenizer:专注于提取与文本对齐的语义特征。
架构与声学 Tokenizer 的编码器部分一致,但移除了变分自编码器组件,以确保语义特征的确定性。
训练过程中,语义 Tokenizer 通过 “自动语音识别” 任务强制绑定语音与文本,最终舍弃解码器以提升推理速度 40%。
这种分工协作的模式,既保留了语音的细节(如音色、节奏),又确保了内容与文本的语义一致性,避免了传统模型中常见的 “音色与情绪不匹配” 问题。
开源地址