技术终于有人对语音技术来了次彻头彻尾的批判( 二 )


因此 , 到2018年左右 , “ImageNet时刻”在视觉界已完全实现:
在计算机视觉(CV)领域 , 不再将ImageNet图片分类本身作为目的 , 而是将其作为训练深度卷积神经网络(CNNs)的“前置任务” , 以了解其良好通用功能的做法愈发普遍 。 这种预先训练CNN在ImageNet上执行图片分类(即预训练) , 然后将这些功能用于新目标任务(即微调)的做法已成为解决大量计算机视觉问题的事实标准 。 使用ImageNet预训练的CNN功能 , 在一些图片分类数据集、对象检测、动作识别、人体姿势评估、图片分割、光流(optical flow)、图像自然语言描述(image captioning)等任务上都获得了令人印象深刻的成果 。
为了简化此论据 , 我们假设STT共享了硬件加速选项、框架及关于CV神经网络架构的一些成果 。 另一方面 , 与CV相比 , STT的预训练模型、迁移学习和数据集明显落后 。 此外 , 计算需求(如研究论文中所述)仍旧过高 。
让我们更详细地了解这种情况背后的原因 。 关于语音的大部分研究是由工业界/公司所赞助的学者发表的 , 因此我们将对其研究与学术界和工业界相关的部分提出批评 。 公平起见 , 我们也会批评自己的解决方案 , 也欢迎读者向我们(aveysov@gmail.com)提出反馈和批评 。
技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

对工业界的批评 通常来讲 , 我们读过的大多数STT论文都是由工业界(如谷歌、百度和脸书)的研究者所撰写的 , 大多数针对STT论文和解决方案的批评都可以归咎于研究者的“学术界”或“工业界”背景 。
简而言之 , 这是我们针对STT工业界部分主要关注的问题:

  • 构建基于私有数据的解决方案 , 并且在报告中不够明确;
  • 复杂的框架及工具包;
  • 解决并不存在的问题;
  • 在论文中混淆结果 。

构建基于私有数据的解决方案 , 并且在报告中不够明确 著名的《Deep Speech 2》(深度语音2)论文(2015年发表)中包含以下图表:
基本上 , 论文中表达了这样的观点:需要大量数据才能拥有高质量的模型 。 这是几篇明确报告此问题并执行数据集之外验证的论文之一 。 大多数现代STT的论文通常都在用愈来愈奢侈的方法对LibriSpeech ASR corpus (LibriSpeech)语料库进行过度拟合 。
很可能谷歌、脸书和百度公司都有1万-10万小时的私有数据集用于训练其模型 。 这很好 , 但问题在于:他们使用这些数据来提升自己的性能 , 却没有报告出来 。 由于标注语音需要很长时间 , 问题就愈加复杂 。 因此 , 由于成本过高 , 该领域的小型参与者无法构建自己的数据集 。 即便他们采用了类似我们的方法来获取标注 , 也需要大量资源、时间和精力 , 来生成标签并进行大规模验证 。
1个小时的语音 , 标注起来可能需要2-10个小时 , 具体取决于数据集的挑战性以及是否附加了某些形式的自动标签(即以其他STT系统输出的形式存在) 。 STT与CV不同 , 后者中有用的数据集可以通过标注一小部分来实现 , 而前者——即语音标注非常昂贵 , 从而导致目前的情况:每个人都在一个备受尊敬的公共数据集(LibriSpeech)上宣称获得了最高成果 , 但对于这些模型如何在真实情况下执行 , 以及哪些模型在生产环境下针对什么进行了训练的报告几乎没有动力 。 谷歌、脸书或百度等大公司缺乏明显的经济诱因来开源其大型专有数据集 。 总而言之 , 这为意图构建自己STT系统的从业者设置了极富挑战性的准入壁垒 。 类似*Common Voice*这样的项目会让情况简单一些 , 但它们的数据还不够多 。
复杂的框架和工具包工具包**
COMMITS
CONTRIBUTORS
语言
评论


推荐阅读