另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
为啥跑步半小时以后才能起到减肥的效果,那么前半个小时呢
-
天皇|权势熏天的藤原氏家族,掌控日本近500年,天皇只能娶这家的女人
-
-
武器装备新视野|美国给的优越感荡然无存,中国真强,美网友直言:来中国玩一趟
-
游戏日报|这套卡组轻松取胜,开启声音还能增加胜率?,皇室战争:新挑战赛来袭
-
风圈|台风“海神”加强为超强台风级,最大风力可达16级
-
核武器|一旦爆发核战争,我们能坚持多久?俄专家给出答复无法反驳
-
天山可可:养胃又消水肿,多吃都不胖,全家老少都可吃,早餐就爱吃它
-
-
吴磊帆船运动推广大使|【最新】吴磊帆船运动推广大使 网友:恭喜正能量满满的小伙子
-
「林冲达人」看到真实素颜后,网友闭嘴了,29岁谭松韵演少女被吐槽“装嫩”
-
【影视交流地】美艳娇妻为其放弃事业,过气歌手?50岁隐形富豪林依轮转行当网红
-
金融|中国企业500强最新排名!《财富》发布榜单:23家银行榜上有名
-
央视网|9月1日起新增12个跨境电商B2B出口监管试点
-
新手消防员分管供水车开心到飞起|新手消防员分管供水车开心到飞起 这是怎么回事?
-
上海市财政局 中国人民银行上海分行|2020年上海市国库现金管理(第三期)招标公告
-
地方两会关键词出炉:改善营商环境 推进5G产业发展
-
-
西方|“关于中西方传记创作异与同”学术论坛在京举办
-