巨人网络联合浙江大学语音研究成果入选国际顶会ICASSP 2025

  12 月 25 日上午消息,日前,计算机国际声学、语音与信号处理会议 ICASSP 2025 公布论文录用名单,由巨人网络 AI 实验室与浙江大学合作的语音研究成果入选 ICASSP 2025。该成果提出了一种精准提升音频语言模型性能的创新方法,在实验结果中达到该领域最优效果。

  据悉,国际声学、语音与信号处理会议 (International Conference on Acoustics, Speech and Signal Processing, 简称 ICASSP) 是全世界最大、最全面的信号处理及其应用方面的顶级会议。作为国际电子技术与信息科学工程师协会 (Institute of Electrical and Electronics Engineers,简称 IEEE) 的重要会议之一,在国际上享有盛誉并具有广泛的学术影响力。

  巨人网络 AI 实验室与浙江大学研究团队在合作论文《Multiple Consistency-guided Test-Time Adaptation for Contrastive Audio-Language Models with Unlabeled Audio》中,提出了一种无需标注标签的多重引导提示学习方法,提升了音频分类零样本学习上的效果,为后续在视频配音(Video-to-Audio,V2A)任务上提供精准支持。

  根据实验结果,与最先进的模型相比,该方法平均准确率相对提升了 4.41%,在 12 个任务的跨领域测试中,平均准确率也相对提升了 5.33%,无论是针对域内数据的效果还是跨域的稳定性,都达到了该领域的 SOTA(State-of-the-Art,最优的)效果。(罗宁)