阿里通义千问开源音频语言模型 Qwen2-Audio

  阿里通义 Qwen2-Audio 音频语言大模型宣布开源。

  据介绍,Qwen2-Audio 可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。

  通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会 ACL 2024。