另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
末言雨|胡歌难得正经一回,白衬衫配西装头出席小聚会,变清新花艺师
-
[]文艺北欧风四居室,把家装成了诗的远方,特别是长长的玄关好美!
-
-
【华为手机】信息社会导致华为品牌手机的进货价格瞒不住了,看“哭”手机商!
-
-
ZAKER|到现在,才知道他的做法有多明智!,俄国历史上主动退位的总统
-
-
梦见牛发疯攻击别人流血死了 梦见牛发疯攻击别人一群
-
【】“天才少年”刚毕业就年薪201万!全球仅4人!
-
-
手机科技园谁说iPhone没有游戏模式?教你如何开启,这一招连果粉都不知道
-
嘻哈飞车族|所有游戏将接入“金融级”人脸识别技术,腾讯升级防沉迷举措
-
蓝鳍金枪鱼价格多少钱一斤?蓝鳍金枪鱼和黄鳍金枪鱼的区别是什么?
-
-
#1号海外观察#不料哥哥当场被保安刺死,女子被要求戴口罩后喊来哥哥出气
-
-
微软Surface|微软Surface商用版首次上线京东,包括Laptop 3/Pro X等
-
-
社交|年轻人越来越不喜欢用微信发语音了,如何看待这一现象?
-