9 月 26 日消息,近日,奇富科技在希腊国际语音通信与信号处理顶级会议——INTERSPEECH 2024,发表了题为 Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition 的演讲。
奇富科技介绍了可同时支持 20 多种方言的新一代奇富语音识别系统“QiFree”。在中文口音与方言语音识别领域的权威测试集 KeSpeech 的对比中,奇富科技凭借其在自动语音识别(Automatic Speech Recognition, ASR)领域的积累,实现了方言口音分类准确率的显著提升,达到了 79.10%,远超 KeSpeech 的基线水平 61.13%。同时,在衡量识别错误率的关键指标——CER(Character Error Rate, 字符错误率)上,奇富科技更是以 8.08% 的成绩,优于 KeSpeech 的 10.38%。
据介绍,奇富科技自研的中文语音识别系统“QiFree”,打破了单一模型只能识别特定单一方言的困境,通过创新的层自适应融合结构,借助共享信息编码模块更高效的提取方言信息,实现了即说即译,进一步增强了语音机器人的实时交互能力。(定西)