国思软件 - 语音-语言模型 Voila：实时自主交互和角色扮演

　　可以与日常生活完美融合的 AI agent 将以自主、实时和情感表达的方式与人类互动。它将不仅仅是对命令做出响应，而是持续倾听、推理并主动做出反应，从而促进流畅、动态和情感共鸣的互动。

　　在这项工作中，来自 Maitrix 的研究团队及其合作者提出了一个大型语音-语言基础模型系列 Voila，其采用全新的端到端架构，实现了全双工、低延迟对话，同时保留了丰富的语音细微差别，如音调、节奏和情感，从而超过了传统的管道系统。而且，Voila 的响应延迟时间仅为 195 毫秒，超过了人类的平均响应时间。另外，它的分层多尺度 Transformer 集成了大语言模型（LLM）的推理能力和声学建模功能，实现了自然、个性化的语音生成--用户只需编写文本指令，就能定义说话者的身份、语调和其他特征。此外，Voila 还支持 100 多万种预构建语音，并可以根据短至 10 秒的简短音频样本高效定制新语音。

　　除口语对话外，Voila 还被设计成一个统一的模型，可以用于各种基于语音的应用，包括自动语音识别（ASR）、文本到语音（TTS），以及只需极少调整即可实现的多语言语音翻译。

　　论文链接：

　　https://arxiv.org/abs/2505.02707

　　项目地址：

　　https://voila.maitrix.org/

语音-语言模型 Voila：实时自主交互和角色扮演

我们的产品

相关链接

关于我们

联系我们