另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
央视财经@“超级月亮”又来了!今年最佳赏月良机不要错过
-
-
看看新闻Knews|为了“南翔”这个商标,这两家闹上了法庭
-
新咖说电影|别人就当你是“傻子”,朱之文被村民堵门要钱背后:善良过了头
-
大拇指指甲近四个月变黄变厚,且生长缓慢,在根部有黑色斑块,请问是啥原因有可能是黑色素瘤吗
-
星耀说游戏星■爱意难消,缘分注定,你和他(她)能否牵手一生?四月
-
含羞草为什么会害羞作文300字?含羞草为什么会害羞视频
-
-
中国民航网|吉祥航空迎来开航14周年,“凤凰”腾飞
-
-
-
科学|完整人类基因组首次被破译 22年揭秘全部人体秘密 有多壮观?
-
驱逐舰|055大驱有112枚导弹,若打完该怎么办?原来国家早已有所准备
-
时尚修宛丝|年轻美女街拍:美女穿着浪漫俏皮,散发出浓郁的时尚气息
-
霍中曦家庭地位低,出行背大背包,霍中妍轻松,霍启刚手插裤袋
-
幽默空初彤|看手机的时候也要小心旁边的闺蜜,搞笑gif:恶搞女朋友
-
「估计」农民在地里种它,亩赚5万元,估计不少人还以为是黄瓜
-
【新华网】综述:释放积极信号 助推互利共赢——美国农商界人士
-
-
海底探探|天冷了,别再穿连衣裙,尝尝这款“加绒卫衣”,时尚百搭又减龄