校企合作结硕果:西工大拟人化语音合成技术——“客服机器人”上线
西工大新闻网12月22日电(杨丰煜)
“您好,某某客服,请问您是要咨询什么问题呢?”
“我点的外卖什么时候可以送到?”
你有没有给客服热线打过电话?亦或是接到客服人员给你打来的电话?每天这样的电话有上千万通,在人工智能和智能语音技术的帮助下,大量的这种电话目前可以自动通过内呼和外呼机器人自动完成,帮助人们从大量的简单重复劳动中解脱出来,投入到更有创造力的工作中去。特别是在疫情期间,智能外呼机器人可以完成大量的无接触式远程沟通服务,极大的提升信息获取的效率和安全性。在这种智能对话系统的背后包括语音识别、语义理解、对话管理和语音合成等一系列核心技术。
语音合成是智能客服机器人中重要的技术环节
作为机器人对话系统的嘴巴,语音合成的自然度尤为关键。
语音合成又称为文语转换技术,是指一类将文本转化语音的人工智能技术,是人工智能的一个经典研究问题。大家听到的手机地图导航音、手机和智能音箱上的虚拟助手的语音交互、公共场合的信息播报、AI有声读物等都是通过该项技术完成的。然而和上述应用相比,智能客服和外呼机器人应用场景落地对该项技术提出了更高的要求。在这些场景中,当人们听到是事先录制好的固定录音或者机器味十足、字正腔圆的朗读语音合成效果时,往往没有耐心去听完而直接挂电话,从而导致服务完成度不高。这对语音合成技术提出了更高的要求,需要高自然度、拟人化的技术。
语音合成技术架构
近日,通过产学研合作项目,西北工业大学计算机学院智能语音方向谢磊教授团队与美团合作的“客服场景下的高自然度语音合成技术”成功上线美团智能客服和外呼机器人。该系统取代了先前读音生硬的语音合成系统,通过自然拟人化语音生成,能够大幅提升通话体验的流畅性。通过美团测试团队严格的AB测试,该技术的应用能够使通话成功率相对提升15%以上。目前搭载该服务的美团内呼和外呼机器人月均调用量超过620万次,极大地提升了沟通效率,降低了沟通成本,改善了用户体验。
如何才能研发出一套高表现力的语音合成系统,达到逼真的拟人化效果呢?标准的语音合成系统搭建流程包括:发音人选择、录音棚高质量语音数据录制与标注、模型训练和系统调优等繁琐的过程。最关键的问题是为了进行品控,录音棚录制的发音人数据主要采用朗读和风格模仿的方式进行,往往自然度不够高,很难做到接近真人的逼真合成效果。另一方面,发音人的选择和数据录制成本很高,录音和系统搭建周期很长。
针对上述问题,谢磊教授带领实验室研究生杨丰煜等同学和美团的合作伙伴进行了深入的探索。他们首先想到的是:美团自身就有大量的真实的客服的语音数据。是否可以直接通过这些现有数据进行建模呢?这样一来,建模数据来自真实客服,如果模型可以完美的学到真实客服的发音风格,就可以做到极高的语音合成自然度,同时节省了标准数据的高昂录制与采购成本,而且极大的缩短系统搭建的周期。
真实客服数据与传统音库建模的对比
但是,正是因为客服人员工作环境不是在标准的安静录音棚,而是在多人同时工作的办公环境中,因此数据采集质量不高,存在环境噪声干扰等问题。为了解决这一问题,谢磊教授团队和美团合作者们设计了一套自动化数据筛选方案,通过语音检测、声纹识别、语音识别、声学信号分析与过滤,有效地选择出适合建模的目标客服发音人数据。
数据的问题解决,随之而来的是新的问题。即便是采用筛选出来的数据,通过先进的深度学习技术进行建模,仍然合成语音仍然存在发音不稳定的现象。这是因为客服人员和客户的自然对话往往存在很多难以建模的口语化现象,包括快语速、长停顿、延音等。为了更为准确的对这些口语化现象进行建模,谢磊教授团队和美团合作者们提出了一套自动化检测口语化现象的方法,对长停顿、延音等现象进行有效检测,同时更新到语音合成建模的文本表示中,完美的解决了发音不稳定的现象。
客服场景下的高自然度语音合成建模流程
拟人化、自然度问题解决了,最后需要攻克的是音质问题。如果合成音质差,必然影响到用户体验。由于原始客服语音数据质量不高,现有神经声码器合成效果较差,因此需要更加鲁棒的神经声码器才能合成稳定的声音。为了解决这一问题,谢磊教授团队研发了更加鲁棒的神经声码器技术,通过改良需要预测的语音特征,实现了稳定自然的发音合成效果。经过双方几个月的共同努力,解决了上述几个难点问题,该技术得以成功落地。
该技术的成功应用离不开校企合作的大力支持。2019年,谢磊教授团队凭借雄厚的研究基础与实力,入围成为“美团科研合作计划”合作伙伴,开展语音合成技术的前沿探索。实验室研究生杨丰煜前往美团开展合作,圆满的完成了合作任务。除上述成果落地外,双方在小资源抗噪音色克隆上的最新研究成果“Data Efficient Voice Cloning from Noisy Samples with Domain Adversarial Training”发表在语音研究顶级会议Interspeech2020上,并在线进行了宣读。
谢磊教授团队获得“美团科研合作计划”支持
从坚同学在语音顶级会议Interspeech上宣读与美团合作论文
在美团合作的杨丰煜同学(左二)参加公司团建
计算机学院音频语音与语言处理研究组(ASLP@NPU)隶属于空天地海一体化大数据应用技术国家工程实验室。近年来,实验室在张艳宁教授的带领下,围绕人工智能语音处理中的各种关键性问题取得了突出进展。仅仅在语音合成这一领域,在包括Interspeech在内的语音研究的顶级会议上发表论文20余篇,研究成果应用于智能家居与穿戴、智能客服、语音助手、AI朗读、语音玩具等多个方面,产生了良好的经济和社会效益。
实验室语音合成技术落地多个产品
实验室获得语音顶级会议Interspeech2020竞赛优异成绩
围绕国家“新一代人工智能”拟人化人机交互的重大需求,实验室深入开展包括语音增强与分离、语音识别、语音合成、声纹识别等在内的全链路智能语音处理技术。在多项语音技术国际评测中取得顶尖成绩,包括今年语音顶级会议Interspeech深度噪声抑制竞赛(DNS)实时赛道第一名、非实时赛道第二名、Interspeech远场声纹挑战赛(FFSVC)分布阵列赛道第二名的优异成绩。入选《互联网周刊》中国人工智能高校排行十大顶尖实验室。
目前实验室先后与包括腾讯、美团、华为、阿里巴巴、搜狗、微软、字节跳动、爱奇艺、百度、小米、快手、京东等在内的业界众多企业开展广泛深入、多层次的产学研合作。通过校企合作,最新的人工智能研究成果得到快速落地。(图片:团队提供 审稿:邓磊)
未经允许不得转载:大学门户 » 校企合作结硕果:西工大拟人化语音合成技术——“客服机器人”上线
相关推荐
- 西北工业大学在第十一届“全国百篇优秀管理案例”评选中获奖数量位列全国第二
- 西工大师生热议习近平总书记回信寄语广大高校毕业生
- 西工大师生热议习近平总书记致厦门大学建校100周年贺信
- 西工大线上教学纪实(一)
- Nature Communications《自然·通讯》发文报道西北工业大学谢彦博教授团队在新型纳米通道领域的重要进展
- 中国发布新冠肺炎疫情信息、推进疫情防控国际合作纪事
- 西北工业大学举行2020年学生军训汇报总结大会
- 科技部外国专家服务司领导来我校调研指导工作
- 第十四届全国运动会排球女子成年组决赛在西工大翱翔体育馆开赛
- 莫纳什大学副校长余艾冰院士受聘为我校名誉教授
- 国际教育学院召开学习《习近平给北京科技大学全体巴基斯坦留学生的回信》座谈会
- 【主题教育在基层】信息化建设与管理处开展“不忘初心、牢记使命”主题教育纪实
- 西北工业大学成立光电与智能研究院
- 校领导受邀出席2021丝绸之路国际产学研用合作会议并为合作项目揭牌
- 校领导到马克思主义学院召开现场办公会
- 未来超乎你的想象!西工大承办APSCO微小卫星大赛
- 我校承办FEIAP第27届全体大会暨第5届国际学术研讨会 黄维院士履新主席一职
- 中国航空工业集团有限公司和西北工业大学签署协同创新合作协议
- 西北工业大学研究团队在Physical Review Letters发文报道科研进展
- 学校领导带队赴陕西省发改委推进校地合作
新闻公告
- 西北工业大学举行碑林区张家村街道第一选区选举大会 03-15
- 西工大获中国橄榄球协会2021年度特别感谢单位奖 03-15
- 共商国是,两会上的西工大人 03-15
- 校党委召开第八轮校内巡视工作动员部署暨集中培训会 03-11
- 我校获得 “2021年省级节水型高校”荣誉称号 03-10
- 节日快乐!看工大绽放的“她力量” 03-09
- 重磅|第2家科创板:西工大科技成果转化又结硕果! 03-07
- 校领导检查新学期开学工作 03-05
- 西工大召开2022年全面从严治党工作会议 02-28
高考招生
- 西北工业大学2017年本科招生章程 08-05
- 西北工业大学2018年本科招生章程 08-05
- 西北工业大学2014年本科招生章程 08-05
- 西北工业大学2015年本科招生章程 08-05
- 西北工业大学2016年本科招生章程 08-05
- 西北工业大学2013年本科招生章程 08-05
- 西北工业大学2011年本科招生章程 08-05
- 西北工业大学2012年本科招生章程 08-05
- 西北工业大学2009年招生章程 08-05
- 西北工业大学2018年招生计划 08-04