『AI科技大本营』低耗时、高精度，微软提基于半监督学习的神经网络结构搜索算法( 三 )

ImageNet
我们进一步在更大的 ImageNet 分类任务上验证 SemiNAS 的表现，搜索过程中我们仅实际训练评估了400个结构，最终结果如表2所示。

本文插图

表2：不同方法在 ImageNet 分类任务上的性能
在 mobile setting 条件下（FLOPS<600M）， SemiNAS 搜索出的网络结构取得了23.5%的 top-1 错误率和6.8%的 top-5 错误率，超过了其他 NAS 方法。
语音合成（TTS）
我们还探索了 SemiNAS 在新领域的应用，将其用于语音合成（Text to Speech, TTS）任务上。
在将 NAS 应用到一个新任务时，需要面临两个基本的问题：搜索空间设计以及搜索指标设计。对于搜索空间的设计，我们参照主流 TTS 模型，设计了基于编码器-解码器（encoder-decoder）的框架（backbone）。在具体搜索每层的运算操作时，候选操作包括 Transformer 层（包含不同的注意力头数量）、卷积层（包含不同卷积核大小）、LSTM 层。对于评价指标的设计，不像在分类任务、识别任务以及语言模型任务中评价标准是客观的，可以通过程序自动完成。在 TTS 任务中，合成音频的质量需要人工去评判，而 NAS 需要评价成百上千的网络模型，这在 TTS 中是不现实的。所以需要设计一种客观的评价标准。我们发现合成音频的质量和其编解码器之间的注意力机制图中的注意力权重聚焦在对角线上的程度（diagonal focus rate, DFR）有较强相关性，其对最终的音频质量有指导意义，故选择它作为搜索时的客观评价指标。
我们尝试用 NAS 解决当前 TTS 面临挑战的两个场景：低资源场景（low resource setting）和鲁棒性场景（robustness setting）。在低资源场景中，可用的 TTS 训练数据较少，而在鲁棒性场景中，测试的文本输入一般比较难。我们将 NAO 作为对比的 baseline 之一，在实验中保持 NAO 和 SemiNAS 的搜索耗时相同，来比较最终的搜索结构的性能。
我们在 LJSpeech 数据集（24小时语言文本对）上进行实验，对于低资源场景，随机选取了约3小时的语音和文本作为训练数据来模拟低资源场景，最终实验结果如表3所示。

本文插图

表3：不同方法在低资源场景下的性能
对于最终生成的音频，我们用可懂度（Intelligibility Rate, IR），即人能听懂的单词数量占比，来评价模型性能。可以看到，人工设计的 Transformer TTS [8] 只取得了88%的可懂度，之前的 NAS 算法 NAO 取得了94% ，而 SemiNAS 取得了97%的可懂度，相比 Transformer TTS 提升了9% ，相比 NAO 也有明显提升。同时可以看到，我们设计的搜索指标 DFR 和 IR 呈正相关性，验证了使用 DFR 作为客观评价指标进行搜索的有效性。
对于鲁棒性场景，我们在整个 LJSpeech 上进行训练，然后额外找了100句较难的句子（包含很多单音节或重复音节等）作为测试集，实验结果如表4所示。

本文插图

表4：不同方法在鲁棒性场景下的性能
我们计算了不同模型在测试集上发生重复吐词、漏词的句子数，并计算了整体错误率（一句话里只要出现一次重复吐词或漏词记为一次错误）。可以看到， Transformer TTS 达到了22%的错误率， SemiNAS 将其降低到了15% 。
TTS 实验音频 demo 链接：
https://speechresearch.github.io/seminas/
总结
SemiNAS 利用半监督学习，从大量无需训练的神经网络结构中进行学习，一方面可以在相训练代价下提升原有 NAS 方法的性能，另一方面可以在保持性能不变的条件下减少训练代价。实验表明，该方法在多个任务和数据集上均取得了非常好的效果。未来我们计划将 SemiNAS 应用到更多的搜索算法上，同时探索 NAS 在更多领域的应用。

『AI科技大本营』低耗时、高精度，微软提基于半监督学习的神经网络结构搜索算法( 三 )

推荐阅读

「金星」金星实力太强很抢手，任嘉伦感觉最尴尬，选手选导师感觉像被安排

曾宝仪|曾宝仪，欧豪，龚俊，张小斐

抢票APP的潜规则到底该如何正确的抢到回家的票

浅表性胃窦炎

特斯拉|宣称能跑480实际跑378公里特斯拉被起诉退一赔三！车主败诉

电视柜上面放什么花好看电视柜上面放什么花比较好

涵雪崂山红茶多少钱,崂山红茶和绿茶哪个好

直播港澳台|为何一些港人会支持特朗普？一厢情愿的幻想背后是什么？

伊朗|若美日联手，中国能应对它们的打击吗？看美国上将怎么说

梧桐|梦幻西游：160封印+流云项链26万成交，150无级别女衣52万被瞬秒

“BOE（京东方）创新日”走进蔚来汽车解锁智慧出行新体验

荣耀MagicBook|首销优惠200元荣耀MagicBook 14/15、Pro锐龙版售价一览：到手3799元起

未来五年如何发展？这些头部城市使用了这样的关键词

车家号|为何有那么多好车，叫好却不叫座？，中国自主品牌

张一山|预感会扑街!张一山方回应演技争议张一山:我也有演不好的时候

黄晓明|谍战剧《潜伏者》将播，万茜蒋欣两大女神主演，黄晓明演男主

中国新闻网|广东新增境外输入确诊病例3例和无症状感染者8例

潇湘大视野|所有受害者接受病毒检测，有阳性！印度客机事故2人新冠检测阳性

NVIDIA|NVIDIA最强光追演示Marbles开放下载：RTX 3080/3090来战

『读历史』南宋为何没被金国灭了？“中兴四将”战斗力有多强悍？，岳飞死后