另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
新华社|东京奥组委副主席:明年3月后决定奥运会是否举办
-
中国新闻网|前9月全国食品工业规上企业利润总额同比增10.1%
-
磊磊趣闻|曾获体操冠军的她,16岁被姜文带进娱乐圈,没成想私生活混乱不堪!
-
-
男性养生|常吃韭菜的人,身体不会差,但切忌与一物同食,却有很多人不清楚
-
-
-
-
-
-
[4s店]购车“砍价”最多能砍到多少?4S离职销售透露:这个才是底线!
-
-
正官庄携手东阿阿胶联合上新!星品红胶膏颜全面上市!
-
趣头条|天际红色涂装很时尚,2.0L踩出151马力,油耗6L,2021款逍客到店
-
-
-
-
第三届两岸剧本创投平台获奖剧本揭晓 两位台湾导演拔头筹
-
广西新闻网|柳州一男子街边上演“嚎啕大哭”戏码,“哭”累竟睡着了,一起来看他的“表演”
-