Inworld AI发布Realtime TTS-2语音模型：可感知用户情绪，支持100种语言保持同一声线

　　昨天，Inworld AI 发布新一代语音模型 Realtime TTS-2，以研究预览版形式通过 Inworld API 和 Inworld Realtime API 向开发者开放。

　　TTS-2 的核心变化在于从单向文本转语音管线转向闭环实时对话架构：模型直接接收对话中的实际音频，从而感知用户的语气、节奏与情绪状态并作出相应调整。新版本新增四项能力：

语音指令（Voice Direction）：用自然语言描述表达方式，例如「疲惫但温柔，像刚下班回家」，模型据此调整语音风格，不再依赖固定情感标签；
对话感知（Conversational Awareness）：在 Realtime 会话中自动接收前序音频，语气与节奏可跨轮次延续；
跨语言支持（Crosslingual）：单一声音身份可在超过 100 种语言间无缝切换，声线与人物特征保持一致，支持同一段生成中混用多语；
高级语音设计（Advanced Voice Design）：无需参考音频，通过文字描述即可生成可复用声音角色，并提供「富有表现力」「均衡」「稳定」三种模式。

　　此外，模型支持内联非语言标记（如【笑】【叹气】）、语音克隆（上传 5 至 15 秒音频样本即可），TTS 层首包延迟低于 200 毫秒。

作者：itwriter
来源：互联网
日期：2026-05-08
浏览 (874)