暖夏少年|滴滴 AI Labs 宋辉:单通道语音分离面临哪些挑战?| CCF-GAIR 2020( 四 )
第三是训练机制 。 在训练机制上的发挥空间也比较大 。 比如两步训练法(two-step training) , 由于 1-D CNN 作为 Encoder/Decoder 的风险是信号不一定能够精确重构 , 也就是说可能无法像傅里叶正反变换那样完美复现原始信号 , 所以两步法就是在第一步先只训练 Encoder/Decoder , 希望它们引入的误差尽可能小;在第二步当中训练中间的分离网络 , 需要注意的是 , 训练分离网络的损失函数也是定义在潜空间中的 。
还有一个比较有用的方法是 Dynamic mixing , 它是一种数据增广的方式 , 在训练的时候人为追加一些不同的混合比例的混合语音来扩充训练数据 , 这种方式非常简单 , 却非常有效 。
另一种扩充训练数据的方式是半监督训练 , 它利用大量的无标注数据 , 通过一个 Teacher 网络先把它们分解成两路信号的混合 , 然后通过 Student 网络将其分离出来 , 它的学习目标是使得 Teacher 网络和 Student 网络尽可能相似 。
还有一种 Conditional chain model , 这种方法并不是把每个人的声音同时分离出来 , 而是一个接一个分离 。 这样 , 在分离后面的说话人声音的时候 , 就可以利用前面的输出作为条件 , 再配合一定的截止条件 , 一定程度上可以缓解分离网络对说话人个数的限制 。 此外 , 我们最近也在尝试利用对抗学习的方法 , 直接将生成对抗网络的训练机制引入到分离网络当中 , 也取得了不错的效果 。
最后 , 如何更好的利用声纹辅助信息完成高质量的说话人抽取任务也很关键 。 说话人抽取效果好坏的关键点在于 speaker embedding 的质量能给予分离网络多大的辅助 。 至于 speaker embedding 如何获得 , 既可以像 Voice filter 一样用固定的声纹 embedding 作为 reference , 比如 x-vector、d-vector 等等 , 也可以通过辅助网络与分离网络联合训练的方式获得可学习的声纹 embedding , 后者相对用的更多一些 。
滴滴在这方面也在尝试通过引入 Iterative refined adaptation(IRA)机制来提炼高质量的 speaker embedding 。 它本质上是一种 adaptation 方法 , 受人类听觉感知过程的启发 , 在分离之初 , 我们可能并不知道确切的声纹信息 , 但随着分离过程的进行 , 我们对于目标说话人越来越熟悉 , 获得了更多的目标说话人的声纹信息 , 这些信息可以反过来指导分离网络更好的抽取出与之相匹配的声音 。 实验表明 , 对于相同的分离网络 , 引入 IRA 机制能够带来分离性能的一致提升 , 而且能够比较有效的减少含噪场景下的性能损失 。
第三部分是一些结论和对未来的展望 。
第一 , 目前在学术界和工业界 , 基于时域的分离方式更受大家欢迎 。 第二 , 如何提升模型的泛化能力是一个比较关键的问题 , 我们更希望一个分离网络或抽取网络在通用场景下可以取得满意的结果 , 而不是过拟合于某些特定的场景 。 第三 , 未来希望可以尽可能的挖掘出更多语音分离的场景和应用 。 最后 , 是前端语音分离和后端 ASR 系统的联合训练 , 这也是目前的一个研究热点 。
以上是我报告的全部内容 , 谢谢大家 。
【暖夏少年|滴滴 AI Labs 宋辉:单通道语音分离面临哪些挑战?| CCF-GAIR 2020】雷锋网雷锋网雷锋网
推荐阅读
- 金戈鐵馬|特朗普力挺铁杆支持者,枪杀两人的少年没错?抗议活动不断发酵
- 开封于七一|育迎宾尚法好少年,借温柔秋风多送法
- 少年|央视要搞选秀,热搜沸了!网友提名他当导师,点赞数第一
- 穿搭:文雅甜美的穿搭,显瘦有气质
- 暖夏少年|2020电脑硬盘销量排行榜:七彩虹加入战局,硬是打倒了金士顿
- 少年一梦|2020畅销手机排行,iPhone无人超越,安卓旗舰全线溃败
- 少年帮|进入倒计时,华为突然宣布,供应链将迎来“洗牌”?
- 滴滴出行|网约江湖:生态闭环的滴滴
- 少年帮|纯国产“龙芯”即将来临,正式确认?中科院宣布决定
- 上线|原创央视也搞成团选秀!《上线吧!华彩少年》有哪些优势?粉丝放心了