话者转换的任务定义;
平行语料和非平行语料的话者转换方法;
基于表征解耦的非平行语料话者转换方法 。
话者转换 , 又称语音转换 , 英文名为VoiceConversion , 指的是对源说话人的语音进行处理 , 使它听起来接近目标发音人 , 同时保持语音内容不变 。
话者转换技术经过了从规则方法到统计建模的发展历程 。 现阶段的基于统计建模的话者转换方法 , 其转换过程通常包括三个主要步骤:
源说话人语音输入后 , 首先经过声码器从语音信号中抽取声学特征 , 如梅尔谱、基频等;进一步通过声学模型P(Y|X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号 。
那么什么是平行语料?
在训练阶段 , 如果源和目标两个说话人朗读过同样的文本 , 就可以得到他们之间的平行语料 。 基于平行语料 , 可以直接建立转换模型描述两个说话人声学特征之间的映射关系 。 在转换阶段 , 输入新的源说话人声音 , 就可以通过转换模型进行目标说话人声学特征的预测 。
其基本的策略是 , 两个说话人录制了平行语料后 , 考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异 , 需要先利用动态时间规整(DTW)算法进行序列的对齐 , 得到等长的X序列和Y序列 。 接着 , 将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接 , 进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
不过 , 基于GMM声学建模的语音转换质量还是不尽如人意 。 一方面转换的音质不够高 , 声音听起来有机械感;二是和目标人的相似度不够好 。 这些都和声学模型的精度不足有关系 。
针对以上问题 , 自2013年开始 , 深度学习被广泛应用与语音转换的各个技术环节 , 如特征表示、声学建模、声码器等 。 今天重点关注的是声学模型 , 即如何更好的建模P(Y|X) 。
推荐阅读
-
-
【舰载武器杂志】大批米28对叛军武装清场,不等了!俄罗斯深夜发动无差别轰炸
-
晨娱秀场|| 500家影院喜“营业”首日战绩如何?这个电影最受欢迎,数据
-
菊姐说八卦|“流量神话”成过去时,“看脸”吃饭向以艺立身转型
-
AuroraGirl|white x Dunk SB 奇奇怪怪,没人喜爱?,Off
-
佛说:伤害你的人是来度你的,碰到小人,默念这三句话,放过他
-
养成良好的职业道德的方法 养成良好的职业道德的方法包括
-
[顶级豪华车]迈凯轮通过直播发布新型迈凯轮超级跑车
-
足球部落国际版|最快明天完成体检,尤文核心已启程与巴萨谈判!双方仅存细节问题
-
DNF心情咖啡屋|DNF:黑一阿旭又起节奏?拿了别人矛盾材料,却声称没有收到
-
【问董秘|投资者提问:请问在大数据中心、5G基站等新基建建设中会用到转换器和墙壁开关...】
-
北京:丰台新村街道降为低风险地区 全市仍有2个中风险地区
-
初始农人|制作香菇培养料,必须做好2控制3配合,木屑为主料
-
男生啥时候刮胡子比较好,或者说在嘴部胡子发育到啥程度再进行清理比较好
-
芝麻游戏资讯■《梦幻西游》手游:双龙阵容为何突然跌落神坛?
-
-
依依畅聊情感故事|衣服故意穿小一码,大秀好身材,李小璐又开始“作妖”
-
「新华网客户端」境外媒体:扬言再次对华加征关税 白宫挑衅言论“吓坏”华尔街
-
辰龙军事|如今又来买国产战车,比巴铁还铁的哥们出现?买完中国卫星买战舰
-