
Miso Labs 昨日发布并开源文本到对话语音生成模型 MisoTTS,又称 Miso One。官方博客称,该模型规模为 80 亿参数,面向情感表达更自然、响应延迟更低的语音代理场景。
MisoTTS 使用残差矢量量化架构,把每个音频 token 表示为 32 个 codebook 索引,每个 codebook 为 2048 维,从而避免传统 Transformer 直接扩展单一音频词表时遇到的参数膨胀。
官方称,这种设计让模型能利用前序音频或对话历史生成更贴合语气的回复,并支持提示式声音生成。
