另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
产业气象站 又爆出高危漏洞!Tomcat 8.5~10 中招…,Tomcat
-
央视网|新加坡副总理:保持开放让所有人从全球化中受益
-
星空|罗永浩做直播的公司要卖了? 买主竟是家做电缆的上市公司
-
美国|美国对微信下手影响有多大 腾讯:来自美国的营收占比低于2%
-
-
Aggro电竞|兔女郎公孙离COS,小姐姐裤子也太破了
-
-
心脑血管|不是所有的高血压病人,都需长期用药,这2类人就不用
-
##终极斗罗:轩宇的竞争者,不断地为秀秀购物,只为获得秀秀的青睐
-
央视|世卫组织:全球新冠肺炎新增确诊262929例
-
『爱情喜剧』切记不要入坑!,车主朋友注意了!这4类车二手车商都不敢收
-
-
长成大人的我们,更需要这份纯真 经典动画电影排行榜
-
梦见别人的头出了好多血 梦到别人的头流血了,周公解梦
-
|中国现有乙肝病毒携带者约7000万,近九成未得到治疗
-
李易|明星对自己的误解,普通好看朱一龙,颜值正常肖战,长的很丑李易
-
卡哇伊|被财富好消息堵住门的生肖生肖羊生肖猴生肖猪,6月1号开始
-
新防务观察|土耳其突然提出这一条件,美俄法三国全傻眼了,纳卡战局焦灼之际
-
安娜说历史■就知道了,张三丰到底有多爱郭襄?看看张三丰看到郭襄遗书的反应
-
杨小威侃球|控卫短缺,外援补充成关键,CBA20队之首钢:内线强大