wavenet合成的数据是否可以用来训练声学模型
谢邀。先来说些语音识别的背景知识哈。当前的主流的语音识别系统基本采用的都是基于机器学习的方案,就是利用大量的语料训练模型,然后基于预先训练好的模型进行识别。虽然好的模型会具备一定的泛化能力,但训练数据与待识别数据之间的一致性仍然是影响识别性能的重要因素。当两者具有不同特点时,识别性能会显著下降。从声学角度来说,这种区别可以体现在说话人、口音、背景噪音、发音方式、信道等。例如:训练数据全部来自说话人A而待识别语音全部来自说话人B,训练数据为普通话而待识别数据带有方言口音,训练数据为安静环境下录制而待识别数据带有很强的背景噪音,训练数据为朗读语音而待识别语音为自然口语,训练数据来自连接电脑的高质量麦克风而待识别数据为电话语音……在这些情况下,识别性能都会急剧下降。再来说说语音合成。语音合成的目标是生成清晰规范的语音,其合成的语音一般只对应一个或很少的几个人的声音(男声、女声、童声等不同的引擎),且语音规范(标准普通话或某种规定的方言,如粤语),无噪声。所以,对于题主的问题,答案应该是:这要看你想用这系统去识别什么语音。如果要识别的语音也是同样的合成语音,那么没问题。如果要识别的是不限定说话人(语音识别领域称为非特定人),有背景噪音,说话人可能有方言口音,自然发音(非朗读)的语音,那么性能会惨不忍睹。最后再多说两句:所以,对于语音识别来说,语料库是极为重要的资源。建立语音库有很多的原则,最起码的,要建立非特定人的系统,说话人要很多,至少要上百个,这样才能保证模型的通用性。性别上也要尽量平衡,如果设计的系统不是只给男人或女人用的话。其它如口音、噪音、发音方式、信道等,就看待识别语音的要求了,要尽量和待识别语音一致或覆盖所有可能。总之,语音库的设计有很多讲究,不止是生成大量语音这么简单。
■网友
可以倒是可以,不过我怀疑:合成出的语音的音色不够多样(只有几个人甚至一个人的音色);更接近朗读语音(read speech)而不是自然谈话语音(spontaneous speech);所以训练出的模型用于真实场景的语音识别,性能会惨不忍睹……
■网友
在机器翻译领域一个常见的数据增强方法就是back-translation,用反向的翻译模型生成的pairr训练正向的翻译模型,后来又逐步提出配合训练等策略。题主说的这种方法与机器翻译异曲同工,但是核心问题就是声学特征与语言文本比起来复杂的多。
对于语音识别系统来说,由于考虑到各种发声情况,模型输入变量空间比输出变量空间大的多,wavenet合成语音数据显然不具备很好的范化性以覆盖实际场景,相比之下训练的模型难免过拟合。
【wavenet合成的数据是否可以用来训练声学模型】 对于语音合成系统来说,虽然语音合成的训练数据分布越集中越容易对齐,理论上应该没什么问题,但是这种做法无疑于用一个假声音去训练另一个假声音,后者最多学的跟前者一样假,换句话说,wavenet的loss会被放大,就算把wavenet学到特征全部训练到你的模型中,在技术上也毫无意义。
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队
- 上海或苏州有没有比较好的大数据培训机构
