模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 ) 雷锋网按：2020年8月7日至9日

另外，这样的帧到帧映射模型不能转换时长。而实际情况是有的人说话比较快，有的人说话比较慢，怎么把说话人的语速特点体现出来呢？
这是我们设计的模型结构。模型输入除了从源说话人语音中提取的声学特征序列外，还拼接了利用语音识别声学模型提取的文本相关特征，以协助序列对齐。模型输出就是从目标说话人平行语句中提取的声学特征序列。其中输出与输入序列长度并不一致。
以下是实验结果。图中横坐标是真实目标说话人语音的时长，纵坐标是转换后的语音时长。如果语音转换模型有比较好的时长调整效果，那么数据点应该落在对角线上。图中绿色点所示的是传统逐帧转换方法的结果，从中可以看出源与目标发音人之间显著的语速差异。红色点对应的是所提出的序列到序列语音转换方法，可以看出其取得了良好的时长转换效果。
已有的非平行语料语音转换大体上有两个思路：
基于非平行数据构造平行数据。构造方法包括语音合成、帧挑选等。 CycleGAN神经网络模型也可以归入此类方法。
分离语音中的文本与话者表征。包括利用语音识别器提取音素后验概率(PPG)的方法，以及基于自编码器与变分自编码器的方法等。

模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 )

推荐阅读

平安丰都|双十一防骗指南

智通财经|净亏损148.4万美元，龙运国际(LYL.US)2020财年年报：营收同比下滑99.6%

大王乌贼|在浩瀚的海洋里真的有那些未知的怪兽吗？

广告宣传语亲近自然宣传语

|军中女贪高小燕：靠“独门秘诀”征服领导，花大价钱升少将军衔

寿乡散人|当年多大岁数，有人说只有15岁，给八百壮士送国旗的杨惠敏

今日天门|速看！天门5G网络建设最新进展来了！

小米|小米第一台5G手机被弃：小米MIX3 5G无缘升级MIUI 12

新药创制专项最后一款药上市诺诚健华商业化阶段开始

雷达通信电子战：雷达回波模拟器在汽车雷达测试中的应用

菜饭|布衣菜饭，可乐终生（好文）

#唐小姐美食记#没花多少钱，朋友圈纷纷评论：小日子让人羡慕，我家早餐这样煮

G时尚|一身银黑拼接抹胸长裙，呈现曼妙身材，白鹿活动造型

一点小事就焦虑

惊慌薄情|全锦赛前瞻：两大主力或缺席,陈梦需证明自己,孙颖莎志在卫冕

阿森纳▲后腰对一支球队有多重要？从阿森纳的坠落说起

安化黑茶多少钱一斤？

什么牌子香水好闻又持久女士香水

辣椒酱|7月底，正当吃的菜，润肠还通便，腌着吃特香，错过要再等一年

游戏测评路人君|这类游戏究竟哪里值得玩？，沈腾代言奇迹游戏广告刷屏