话者转换的任务定义;
平行语料和非平行语料的话者转换方法;
基于表征解耦的非平行语料话者转换方法 。
话者转换 , 又称语音转换 , 英文名为VoiceConversion , 指的是对源说话人的语音进行处理 , 使它听起来接近目标发音人 , 同时保持语音内容不变 。
话者转换技术经过了从规则方法到统计建模的发展历程 。 现阶段的基于统计建模的话者转换方法 , 其转换过程通常包括三个主要步骤:
源说话人语音输入后 , 首先经过声码器从语音信号中抽取声学特征 , 如梅尔谱、基频等;进一步通过声学模型P(Y|X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号 。
那么什么是平行语料?
在训练阶段 , 如果源和目标两个说话人朗读过同样的文本 , 就可以得到他们之间的平行语料 。 基于平行语料 , 可以直接建立转换模型描述两个说话人声学特征之间的映射关系 。 在转换阶段 , 输入新的源说话人声音 , 就可以通过转换模型进行目标说话人声学特征的预测 。
其基本的策略是 , 两个说话人录制了平行语料后 , 考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异 , 需要先利用动态时间规整(DTW)算法进行序列的对齐 , 得到等长的X序列和Y序列 。 接着 , 将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接 , 进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
不过 , 基于GMM声学建模的语音转换质量还是不尽如人意 。 一方面转换的音质不够高 , 声音听起来有机械感;二是和目标人的相似度不够好 。 这些都和声学模型的精度不足有关系 。
针对以上问题 , 自2013年开始 , 深度学习被广泛应用与语音转换的各个技术环节 , 如特征表示、声学建模、声码器等 。 今天重点关注的是声学模型 , 即如何更好的建模P(Y|X) 。
推荐阅读
-
为啥跑步半小时以后才能起到减肥的效果,那么前半个小时呢
-
天皇|权势熏天的藤原氏家族,掌控日本近500年,天皇只能娶这家的女人
-
-
武器装备新视野|美国给的优越感荡然无存,中国真强,美网友直言:来中国玩一趟
-
游戏日报|这套卡组轻松取胜,开启声音还能增加胜率?,皇室战争:新挑战赛来袭
-
风圈|台风“海神”加强为超强台风级,最大风力可达16级
-
核武器|一旦爆发核战争,我们能坚持多久?俄专家给出答复无法反驳
-
天山可可:养胃又消水肿,多吃都不胖,全家老少都可吃,早餐就爱吃它
-
-
吴磊帆船运动推广大使|【最新】吴磊帆船运动推广大使 网友:恭喜正能量满满的小伙子
-
「林冲达人」看到真实素颜后,网友闭嘴了,29岁谭松韵演少女被吐槽“装嫩”
-
【影视交流地】美艳娇妻为其放弃事业,过气歌手?50岁隐形富豪林依轮转行当网红
-
金融|中国企业500强最新排名!《财富》发布榜单:23家银行榜上有名
-
央视网|9月1日起新增12个跨境电商B2B出口监管试点
-
新手消防员分管供水车开心到飞起|新手消防员分管供水车开心到飞起 这是怎么回事?
-
上海市财政局 中国人民银行上海分行|2020年上海市国库现金管理(第三期)招标公告
-
地方两会关键词出炉:改善营商环境 推进5G产业发展
-
-
西方|“关于中西方传记创作异与同”学术论坛在京举办
-