另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
-
-
-
-
穿搭|都忘鞠婧祎也是女团出身,穿西装百褶裙配马丁靴,26岁像少女
-
「聪聪那年在美国」还是向伊斯兰教屈服了……,宝莱坞新星!那个摘下头巾的18岁印度女孩
-
【市值】杨子家族商业版图大起底:旗下上市公司拟开展融资租赁,小贷被限于县内经营
-
走在城长的旅途 学校老师教育学生不要早恋。,幽默笑话
-
ZAKER|顺丰控股归母净利润增速波动较大,单票收入处下降通道
-
光一样的少年|全球PC市场Q2大幅增长 惠普超越联想重回第一
-
建行泰州分行|“党建+文化”办实事促业务,奋力书写泰州经济高质量发展“建行答卷”
-
铁血军事会|下辖5个连,抗战时期八路军一个团兵力多少?一个团800人
-
-
途行壹块说|喜鹊叫喳喳,好事来到家,生肖马:7月吉星驾临
-
翡翠|在古玩行中有一句话金石有价,玉石无价,为什么会有这么一句传言
-
Shoes时尚动态|初秋:高跟鞋+针织衫的穿搭有多火!一线明星也在追捧!
-
-
-
「养殖户」官宣可食用,近万只甲鱼卖不出愁坏了老养殖户
-
明朝|明朝帝王有16位,为何明十三陵仅13个皇帝?没进十三陵的有谁