另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
张柏芝早就被绿了?谢霆锋10年后终于公开女儿,原来王菲早已知晓
-
-
月球|开始行动了!NASA登月联盟在月球上发现水,却将中国排除在外
-
华为荣耀|突然宣布!荣耀营销经理退休,引发网友猜疑
-
-
Logo设计也可以二次元化,说不准某些图标的灵感正是来自于二次元
-
世界上最古老的四种文字分别是什么 世界上最古老的六大文字
-
-
招聘|用招聘网站的后台告诉你,为什么你投了几百份简历,很少有人回复
-
无敌改装车▲RR:Type-RR,最强思域FD2!Mugen
-
张爱玲|张爱玲在晚年崇尚“极简主义生活”,并非穷困潦倒,稿费拿到手软
-
AutoR智驾 逆行外卖小哥、深夜拥堵轻松应对,元戎启行自动驾驶汽车挑战“宇宙最强街道”
-
-
-
三十年体坛故事|7连杀+赛季双杀!上港仍是国安梦魇 御林军争冠梦碎?
-
-
教育部|教育部重要通知,2条升学途径被堵死!家长无语:之前努力白费了
-
妻子伺候二婚丈夫五年,继子来医院探望一趟,妻子含泪提出离婚
-
-