新一代实时语音编码标准即将发布,2G网络也能开线上会议

  南都记者获悉,由腾讯提议启动、推进的新一代实时语音编码行业标准 AVS3P10 进入公示阶段,即将正式发布,该标准以腾讯首款神经网络语音编解码器 Penguins 为原型。应用该标准,今后在线上会议、语音通话等实时音频场景,带宽要求大幅降低。这也意味着用户即使在电梯、地库、隧道等网络很差的环境,也能实现清晰流畅的语音通话。据悉,从 2021 年起,Penguins 音频编码器已经在腾讯会议驾驶模式、弱网模式及 QQ 语音通话等场景中投入规模应用。

  通常在有限的带宽条件下,想要将声音高质量传递到接收方,需要压缩原始数据、去除冗余信息的语音编码技术。然而,目前基于 EVS、OPUS 等主流音频编解码的标准仍存在一大问题,即当码率降低到 10kbps 以下时,语音质量下降明显,这将影响用户通话体验。

  为应对该难题,腾讯会议天籁实验室联合腾讯 AI Lab 自研了腾讯首款神经网络语音编解码器——Penguins。据介绍,Penguins 将 AI 与传统技术紧密融合,从算法研究、工程化、产品化层面做了系统性创新。

  而以腾讯首款神经网络语音编解码器 Penguins 为原型的 AVS3P10 标准,实现了 6kbps 下的高质量语音通信,即使在“2G”网络下也能实现清晰通话,且主观质量非常接近原始参考信号。同时,主观质量对标传统编码的中高码率情况下,编码效率提升 200-300%。

  据悉,2021 年起,Penguins 音频编码器就在腾讯会议的驾驶模式、弱网模式及 QQ 语音通话等场景中投入规模应用,支持了亿级用户的流畅沟通。2023 年 3 月,腾讯团队在 AVS 音频组主动提议启动实时语音编码项目,促进行业的技术进步。2023 年 6 月,AVS 工作组会议上,决定立项 AVS3P10 实时语音编码项目;来自腾讯会议天籁实验室的肖玮负责推进和维护。随后,腾讯提交基于 Penguins 的候选技术;经过 AVS 音频组交叉验证后采纳。2024 年 6 月,AVS3P10 实时语音编码标准正式完成标准化工作,进入公示阶段。

  谈及 Penguins 音频编码器成为行业标准后,腾讯本身如何推进商业化的问题,腾讯标准化高级工程师张亚军在接受媒体群访时表示,新一代语音编码推出之后,随着音视频编解码技术的迭代,势必会有新的技术替代原有技术。在互通互联方面,也会涉及到产业链上的企业,比如芯片厂商、终端厂商,包括 RTC,互联网 APP 厂商,一起讨论达成共识,最后才有标准发布。

  “我们致力于通过此项标准扩大并推动整个行业的持续发展,实际上是与产业伙伴们共同成长、协作,共享市场带来的丰硕成果。”张亚军说,对部分合作伙伴来说,如果投入产出成本过高,也可以通过合作方式加速推动产品上市,从而推动整个行业加速实现 AVS3P10 标准应用起来。

  采写:南都记者林文琪