模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 二 ) 雷锋网按：2020年8月7日至9日

话者转换的任务定义；
平行语料和非平行语料的话者转换方法；
基于表征解耦的非平行语料话者转换方法。
话者转换，又称语音转换，英文名为VoiceConversion ，指的是对源说话人的语音进行处理，使它听起来接近目标发音人，同时保持语音内容不变。
话者转换技术经过了从规则方法到统计建模的发展历程。现阶段的基于统计建模的话者转换方法，其转换过程通常包括三个主要步骤：
源说话人语音输入后，首先经过声码器从语音信号中抽取声学特征，如梅尔谱、基频等；进一步通过声学模型P（Y|X）进行由源说话人声学特征X到目标说话人声学特征Y的映射；映射得到的声学特征最后通过声码器重构语音信号。
那么什么是平行语料？
在训练阶段，如果源和目标两个说话人朗读过同样的文本，就可以得到他们之间的平行语料。基于平行语料，可以直接建立转换模型描述两个说话人声学特征之间的映射关系。在转换阶段，输入新的源说话人声音，就可以通过转换模型进行目标说话人声学特征的预测。
其基本的策略是，两个说话人录制了平行语料后，考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异，需要先利用动态时间规整（DTW）算法进行序列的对齐，得到等长的X序列和Y序列。接着，将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接，进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
不过，基于GMM声学建模的语音转换质量还是不尽如人意。一方面转换的音质不够高，声音听起来有机械感；二是和目标人的相似度不够好。这些都和声学模型的精度不足有关系。
针对以上问题，自2013年开始，深度学习被广泛应用与语音转换的各个技术环节，如特征表示、声学建模、声码器等。今天重点关注的是声学模型，即如何更好的建模P(Y|X) 。

模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 二 )

推荐阅读

刨腹产的疤痕

何超莲|袁弘宋轶祝福何超莲与窦骁，他们坐在花车上进入婚礼现场

澜沧古茶产品明细,爱在深秋的澜沧古茶

「王者小窝」大仙首次体验后公布克星，大仙：这英雄完克蒙恬，蒙恬上线仅2天

高中生学习压力重又坚持健身应该吃啥补充精力

「豪华车」从60万跌到24万，又一豪华车倒下，7年前是男人的梦想车，如今没人要了

淘宝卖家选择货源的渠道有哪些淘宝网开店时货源如何选择?

点点看运势|进入这个8月就会咸鱼翻身，未来不可估量，前半生一无是处的星座

维特尔|汉密尔顿希望维特尔能在2021年继续与他竞争

农民小故事|这些迷你型多肉既好养，易出状态，喜欢玲珑小巧的多肉

纽约大学希望本科生48小时内搬出宿舍，中国留学生连夜找房

?证券日报|?每日优鲜等生鲜电商订单与投诉双升：退款难问题凸显

新华网|医师节义诊送健康

乌鲁木齐全民免费核酸检测：乌鲁木齐全民免费核酸检测欢迎广大市民监督举报

三星电子成为T1俱乐部官方显示设备合作伙伴

如果爱我就请珍惜我?如果爱请珍惜的一段话

自制3款减肥主食饱腹消脂治便秘

前方高能|一定要坐上铺呢? 哈哈哈老司机总有收获 !，为什么坐火车的时候,

『雨天聊故事』抖音上点赞100万+的网红美食，真的好吃吗？

锦衣卫|原创锦衣卫任嘉伦眼神开车，舒畅清装温婉水灵，跪求这几位古装半永久