另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
游戏日报|蓝武也能罚站到底,元气骑士轻松一击500?霰弹枪三代割草利器
-
-
游侠网|唤醒亲人拯救自己,唯美动作冒险《Waking》新预告
-
-
「茶花」“茶花”开花小、开花少,把几个窍门用上,可能早开爆了
-
-
「花开无田」24岁嫁55岁老人,相守10余年,晚年道出心中,她是民国名媛
-
『丰田』丰田爆发了!高颜值旅行车亮相,大7座自带“双人床”,要啥杰德
-
国内赛事|LPL常规赛最后一天,最大看点留在最后,小乐言首次和宁王交手
-
-
陈大宾老师|陈大宾:6.26黄金收官做多还做空?原油操作建议及走势分析
-
豆腐|妈妈给中学生儿子做的一周午餐,吃饱吃好不浪费,拒绝精致穷
-
企业|中国社科院发布《企业社会责任蓝皮书(2020)》,4061家企业抗击疫情捐赠总额351.4亿
-
环球网|蓬佩奥称中国利用疫情削弱民主 赵立坚:美糟糕防疫局面早已扯下美式民主“国王的新衣”
-
-
年轻|牛仔裤显出你的年轻态与活力感,让你时刻充满清纯与时尚的魅力
-
陈晨晨 就会有不一样的结局,晚安心语:不一样的态度
-
二手大众辉腾10万没人要,网友坦言自己不傻,白送也不要
-
女王时尚穿搭|赵丽颖新剧开机却显疲惫,眼袋明显太抢镜,真该好好休息一下了
-