Miso Labs 开源 8B 语音模型 MisoTTS

　　Miso Labs 昨日发布并开源文本到对话语音生成模型 MisoTTS，又称 Miso One。官方博客称，该模型规模为 80 亿参数，面向情感表达更自然、响应延迟更低的语音代理场景。

　　MisoTTS 使用残差矢量量化架构，把每个音频 token 表示为 32 个 codebook 索引，每个 codebook 为 2048 维，从而避免传统 Transformer 直接扩展单一音频词表时遇到的参数膨胀。

　　官方称，这种设计让模型能利用前序音频或对话历史生成更贴合语气的回复，并支持提示式声音生成。

作者：itwriter
来源：互联网
日期：2026-06-05
浏览 (4773)