wavenet合成的数据是否可以用来训练声学模型谢邀。先来说

谢邀。先来说些语音识别的背景知识哈。当前的主流的语音识别系统基本采用的都是基于机器学习的方案，就是利用大量的语料训练模型，然后基于预先训练好的模型进行识别。虽然好的模型会具备一定的泛化能力，但训练数据与待识别数据之间的一致性仍然是影响识别性能的重要因素。当两者具有不同特点时，识别性能会显著下降。从声学角度来说，这种区别可以体现在说话人、口音、背景噪音、发音方式、信道等。例如：训练数据全部来自说话人A而待识别语音全部来自说话人B，训练数据为普通话而待识别数据带有方言口音，训练数据为安静环境下录制而待识别数据带有很强的背景噪音，训练数据为朗读语音而待识别语音为自然口语，训练数据来自连接电脑的高质量麦克风而待识别数据为电话语音……在这些情况下，识别性能都会急剧下降。再来说说语音合成。语音合成的目标是生成清晰规范的语音，其合成的语音一般只对应一个或很少的几个人的声音（男声、女声、童声等不同的引擎），且语音规范（标准普通话或某种规定的方言，如粤语），无噪声。所以，对于题主的问题，答案应该是：这要看你想用这系统去识别什么语音。如果要识别的语音也是同样的合成语音，那么没问题。如果要识别的是不限定说话人（语音识别领域称为非特定人），有背景噪音，说话人可能有方言口音，自然发音（非朗读）的语音，那么性能会惨不忍睹。最后再多说两句：所以，对于语音识别来说，语料库是极为重要的资源。建立语音库有很多的原则，最起码的，要建立非特定人的系统，说话人要很多，至少要上百个，这样才能保证模型的通用性。性别上也要尽量平衡，如果设计的系统不是只给男人或女人用的话。其它如口音、噪音、发音方式、信道等，就看待识别语音的要求了，要尽量和待识别语音一致或覆盖所有可能。总之，语音库的设计有很多讲究，不止是生成大量语音这么简单。
■网友
可以倒是可以，不过我怀疑：合成出的语音的音色不够多样（只有几个人甚至一个人的音色）；更接近朗读语音（read speech）而不是自然谈话语音（spontaneous speech）；所以训练出的模型用于真实场景的语音识别，性能会惨不忍睹……
■网友
在机器翻译领域一个常见的数据增强方法就是back-translation，用反向的翻译模型生成的pairr训练正向的翻译模型，后来又逐步提出配合训练等策略。题主说的这种方法与机器翻译异曲同工，但是核心问题就是声学特征与语言文本比起来复杂的多。
对于语音识别系统来说，由于考虑到各种发声情况，模型输入变量空间比输出变量空间大的多，wavenet合成语音数据显然不具备很好的范化性以覆盖实际场景，相比之下训练的模型难免过拟合。
【wavenet合成的数据是否可以用来训练声学模型】 对于语音合成系统来说，虽然语音合成的训练数据分布越集中越容易对齐，理论上应该没什么问题，但是这种做法无疑于用一个假声音去训练另一个假声音，后者最多学的跟前者一样假，换句话说，wavenet的loss会被放大，就算把wavenet学到特征全部训练到你的模型中，在技术上也毫无意义。

wavenet合成的数据是否可以用来训练声学模型

推荐阅读

中年|第三届“大创慧谷”大学生创业创新大赛正式启动

请问诉讼时效和除斥期间的区别

对马岛之魂|《对马岛之魂》已推出新首日补丁修复本地化表述问题

#制衣#广州“小北京路”缺少公共设施，20万湖北工友盼望有个公共厕所

MPV|埃尔法压力山大！岚图梦想家私人定制版亮相：隐藏升降大彩电太吸睛

怎样面对一个破碎的生活

马自达|3.0T+直六全新马自达6效果图曝光：最美B级轿车要来

[中国]大家都开始回避，但苏贞昌就是不改口，仍称“中国武汉病毒”

壹枝杨柳总是在回忆中深刻久远，《昨日青空》：青春的迷茫与遗憾

冲泡红茶茶具,袋装红茶泡多久

乐居财经|葛洲坝：签订约115.15亿元EPC合同协议

孕妇▲孕妇嗑瓜子好吗

【】头发后面怎么剪好看

小的时候的故事?小时候有意思的故事

教师节|张文宏等10位教师获2020年“最美教师”称号

包青天之陈世美与秦香莲电视剧包青天之陈世美

叶子猪游戏网|怀旧服炮台戒律牧火了！输出叫板法爷，无奈部落却玩不了这流派？

人工智能DeFi网络拥挤、假币泛滥问题、该如何解决？

河南省原副省长徐光涉嫌受贿被提起公诉

【娱乐小看点点】而美国人要打歪？车友：太无奈了！，中国人停车为啥都打正方向盘