国思软件 - Qwen3‑TTS 上线：覆盖 10 语种，1.7B/0.6B 模型同步开源

　　近日，千问 Qwen 宣布 Qwen3‑TTS 全系列语音生成模型正式开源，覆盖 1.7B 与 0.6B 两种尺寸，并支持音色克隆、音色创造、情感与韵律控制、多语种生成等完整语音能力。

　　官方表示，新版本在生成质量、延迟控制与跨语言泛化方面均达到业内领先水平。

　　官方宣称，Qwen3‑TTS 可在保持声学细节与副语言信息的前提下实现高效压缩，并通过轻量级非 DiT 架构实现高速还原。

　　官方数据显示，该 tokenizer 在 PESQ、STOI、UTMOS 等指标上均达到 SOTA 水平，且在说话人相似度上显著领先同类模型。

　　据介绍，模型端到端合成延迟最低可达 97ms，输入单字后即可输出首包音频，满足实时交互需求。

　　Qwen 表示，1.7B 版本面向极致性能场景，具备更强的音色控制与情感表达能力；0.6B 版本则在性能与效率之间取得平衡，更适合边缘部署。

　　在功能层面，Qwen3‑TTS 支持自然语言指令驱动的音色、情感、节奏与韵律控制，可根据文本语义自适应调整表达方式，并具备对噪声文本的更高鲁棒性。

　　模型覆盖中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等 10 种语言，并提供多种方言音色，适用于全球化应用场景。

　　目前，Qwen3‑TTS 已在 Github、HuggingFace 与 ModelScope 全面开源，开发者可直接下载模型或通过 Qwen API 体验。

Qwen3‑TTS 上线：覆盖 10 语种，1.7B/0.6B 模型同步开源