计算机系智能语音实验室钱彦旻副教授及其合作者的论文被评为IEEE ASRU2019最佳论文
IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)(自动语音识别与理解会议)是语音研究领域的重要旗舰会议。ASRU 2019已于2019年 12 月 14 日在新加坡的圣淘沙岛举行。在ASRU 的299篇论文中,共有7篇被提名为最佳论文。最终来自上海交大计算机系智能语音实验室的1篇论文获得了唯一的Best Paper Award。
钱彦旻老师及其合作者的获奖论文题目是:“MIMO-Speech: End-to-End Multi-Channel Multi-Speaker Speech Recognition”,论文的第一作者是钱彦旻老师指导的硕士研究生常烜恺同学,钱老师也是本文的通讯作者。(常烜恺本科和硕士就读于上海交大,于今年9月起在美国约翰霍普金斯大学语音和语言处理中心JHU-CSLP攻读博士学位)
图1:常烜恺同学在ASRU大会上领奖
图2:最佳论文获奖证书
论文简介
“鸡尾酒会问题”是语音研究领域比较典型也最具挑战的任务之一,它最早是由英国认知科学家 Edwaer Colin Cherry 于 1953 年提出,指的是在类似鸡尾酒会的存在多人同时说话并伴随着大量背景噪声的复杂声学场景中,尝试进行人声分离、跟踪和识别特定目标说话人言语的一系列问题。
近年来,随着深度学习的飞速发展,单说话人的语音识别效果已经得到了显著提升,无论是基于DNN-HMM的混合模型,还是端到端语音识别模型,都在很多任务上达到甚至超过了人类水平。然而,在鸡尾酒会场景下,这些系统的性能往往会严重下降,直接进行多人语音识别仍然十分困难。
针对鸡尾酒会场景下的语音识别问题,已有的一些研究提出的方法可以分为单通道和多通道两种情况。单通道的多人语音识别方法主要有基于深度聚类(DPCL)的语音分离+识别方法、基于排列不变形训练(PIT)的端到端识别方法、深度吸引子网络(DANet)以及引入说话人信息的SpeakerBeam方法。尽管这些方法已经取得了较好的识别效果,但与单人语音识别的性能相比仍然差距较大,因此在实际场景中难以广泛应用。相较于单通道方法,多通道的多人语音识别能够利用额外的空间信息来分离和识别不同说话人的语音,从而取得更好的性能。已有的多通道多人语音识别方法主要包括基于PIT的多通道分离+识别方法、引入通道间差异特征的DPCL分离+识别方法等。但这些方法主要注重于前端语音分离,而语音分离的误差往往会传递到后端的语音识别中,可能导致性能的下降。
在这篇论文中,我们提出了一种新颖的多通道多说话人语音识别系统架构——MIMO-Speech,该架构拓展了已有的单通道单人语音识别模型以处理多通道输入和多通道输出,从而可以完全建模多通道多说话人语音分离和识别。如图3所示,它主要包括:1)单通道掩蔽网络,2)多源神经波束形成器,以及3)多输出语音识别模型。该架构能够将输入的多人混叠语音直接映射到对应多人的文本序列。我们进一步采用了课程学习策略,充分利用训练集来提高性能。训练数据主要由单通道单人语音和多通道多人语音组成,其中单通道语音仅用于训练后端的语音识别模块,而多通道语音会通过前端+后端对整个模型进行训练。此外,在训练的初始阶段,我们将多人训练数据按照两个说话人的信噪比(SNR)由低到高排序,将单人训练数据按照长度升序排列,以便模型能够从较容易的样本开始逐步进行学习,从而获得更好的训练效果。
图3:MIMO-Speech模型示意图
MIMO-Speech是一个完全的端到端框架,它仅通过ASR的训练准则对整个模型进行优化。实验结果也表明,虽然对于前端的掩蔽网络和波束形成器没有显式约束,该模型仍然能够实现很好的整体性能。在多通道的WSJ1-2mix语料库上的实验表明,与单通道系统相比,我们提出的系统能够实现60%以上的WER降低,并且能够分离出具有高质量的增强语音(SI-SDR=23.1dB)。
图4:混叠语音以及分离的语音频谱
我们提出的MIMO-Speech从混叠语音中分离出的对应两个说话人的语音频谱,横轴表示时间,纵轴表示频率。从图中可以看出,该方法能够较好地保留不同说话人语音频谱的局部特征。大家可以访问 https://simpleoier.github.io/MIMO-Speech 试听更多MIMO-Speech系统分离出的语音样本。
计算机系 电子信息与电气工程学院未经允许不得转载:大学门户 » 计算机系智能语音实验室钱彦旻副教授及其合作者的论文被评为IEEE ASRU2019最佳论文
相关推荐
- 黄震教授当选中国工程院院士、樊春海教授当选中国科学院院士
- 我校两位教师受上海市民族团结进步表彰大会表彰
- 聚焦创业教育探索与实践 第103期创新与创业大讲堂举办
- 习近平总书记在两院院士大会中国科协第十次全国代表大会上的重要讲话在上海交通大学科技工作者中引发热烈反响
- 上海交通大学2020年度实验室骨干培训开班仪式举行
- 上海交大校领导走访慰问暑期坚守一线教职员工
- 第二届上海交通大学-华威大学2019中西部高校英语教师培训项目开幕
- 《查医生援鄂日记》入选国家“百佳数字出版精品项目献礼建党百年专栏”
- 凯原法学院毕业生入选联合国国际法院法官助理项目
- 上海交大在全国高校网络思政工作创新培训班上作主题发言
- 上海交通大学仲英青年学者“洱源工作坊”揭牌仪式举行
- 上海交大推进落实体教融合工作研讨会暨学生运动竞赛总结表彰会举行
- 首届“交大-莫航班”到上海飞机设计研究院入职仪式顺利举行
- 上海交大举行党外人士季度座谈会
- 上海交大“院士团队”助阵“世界顶尖科学家论坛”
- 学校召开持续深化综合改革暨筹备召开第十一次党代会和编制“十四五”规划座谈交流会
- 上海交大第十二期书记院长研讨班举行
- 上海交通大学2019年本科生毕业典礼暨学位授予仪式举行
- 国家社会科学基金重大研究专项“中国参与全球深海治理的行动方案研究”开题
- 2018上海交通大学类脑计算与智能学术研讨会举行
新闻公告
- 四位交医人获第四届“上海最美女医师奖” 03-17
- [战疫进行时]在交大,有这样一群志愿者 03-15
- [战疫进行时]交大战疫日志 03-14
- [战疫进行时]同学们,交大老师被你们暖到了! 03-14
- [战疫进行时]37个人每天与30吨垃圾的较量 03-14
- [战疫进行时]校友积极捐赠支持母校疫情防控工作 03-14
高考招生
- 上海交通大学2016年本科招生章程 08-05
- 上海交通大学2017年本科招生章程 08-05
- 上海交通大学2018年本科招生章程 08-05
- 上海交通大学本科2015年招生章程 08-05
- 上海交通大学2016年本科招生章程 08-05
- 上海交通大学2012本科招生章程 08-05
- 上海交通大学2013招生章程 08-05
- 上海交通大学2009年普通高等学校本科生招生章程 08-05
- 上海交通大学2011年本科生招生章程 08-05
- 上海交通大学2008年本科生招生章程 08-05