观察者网|从60%到85%,科大讯飞是怎么做到的?


观察者网·大橘财经讯(文/一鸣 编辑/周远方)10月23日下午 , 在科大讯飞“全球1024开发者节”上 , 科大讯飞AI研究院常务副院长刘聪发表了关于“构筑AI科技树 , 焕新美好新生活”的主题演讲 。 刘聪表示 , 语音识别是科大讯飞的传统强项 , 目前其已将直播场景下复杂任务的识别效果从60%提到了85% 。
【观察者网|从60%到85%,科大讯飞是怎么做到的?】
观察者网|从60%到85%,科大讯飞是怎么做到的?
本文插图
科大讯飞AI研究院常务副院长刘聪
刘聪介绍 , 近年来 , 科大讯飞陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能 , 将语音听写从简单场景的可用做到了通用;语音转写从原来的不好不可用 , 做到了演讲、会议、庭审等复杂场景的好用;语音控制、命令唤醒 , 也从简单场景的可用 , 做到了复杂场景的好用 。
下一步 , 科大讯飞将持续深耕语音识别 , 去挑战更加复杂的场景 , 去实现从语音到声音 , 从单纯的文字内容的识别 , 到音频的全场景解析 。 例如直播场景这样有游戏、音乐以及笑声、掌声等各种音效嘈杂的背景下 , 如何有针对性地提取想要的声音 。
“面对这种复杂的环境 , 科大讯飞已经有一套全场景音频解析的整体方案 。 目前 , 我们在直播场景下一个很复杂任务上的识别效果 , 已经从60%提到了85% , ”他表示未来相关技术会在讯飞开放平台和讯飞听见上线 。
以下是刘聪演讲节选:
我们知道语音识别是讯飞的传统强项 , 从早期的呼叫导航到2010年我们发布了讯飞超脑语音云和输入法 , 开启了中文语音输入的时代;通过深度学习框架持续的迭代效果 , 接下来我们又陆续推出了方言识别、原厂交互、多麦克风阵列等相关的能力;2015年我们又将人机交互的场景拓展到人人对话的场景 。
整体来说 , 我们总结出三点 , 我们将语音听写从简单场景的可用 , 做到了通用;语音转写从原来的不好不可用 , 做到了演讲、会议、庭审等复杂场景的好用;语音控制、命令唤醒 , 也从简单场景的可用 , 做到了复杂场景的好用 。
那随着现在语音识别在更多场景的应用 。 我们要想一下 , 语音识别下一步发展的方向是什么?又有哪些技术可以从实验室场景走向成熟 , 还有哪些价值值得我们发掘?
首先我们认为语音识别需要持续的去挑战更加复杂的场景 , 去实现从语音到声音 , 从单纯的文字内容的识别 , 到音频的全场景解析 。 例如现在我们在泛娱乐当中 , 我们可以看到直播短视频有很多更加复杂的声音现象 , 需要我们去解决 。 例如在直播的过程当中 , 背景可能是复杂多样的 , 可能有视频声、游戏声或者音乐声 。 此外直播连麦的时候还会经常出现多人混叠的对话 , 这些对我们的语音识别都会有很大的影响 。 除此之外 , 这些视频当中还会包含像笑声、掌声、各种音效这样一些其他的声音现象 。
针对这样一个场景 , 我们一方面需要降低各种背景的噪声对识别精度的影响 。 另外一方面 , 要有针对性的将我们感兴趣的声音提取出来 。 这里我们展示了全场景音频解析的整体方案 。 首先我们通过多分辨率特征提取的声音检测方案 , 再结合我们的序列训练 , 对一些相似声音进行精细建模 , 可以实现将笑声、音效等非语音的声音和语音内容分离 。
针对包含语音的有效内容 , 我们也使用了语音降噪和分离的方案 , 综合利用我们的声音、文本、说话等信息 , 以及在有条件的情况下 , 还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模 。
这些例子都是我们的真实算法、针对真实数据的一个结果 。 我们的算法针对这样的复杂音频 , 有了一个很好的处理效果 , 可以有针对性的提取出更多层次 。 目前 , 我们在直播场景下一个复杂任务上的识别效果 , 已经从60%提到了85% , 未来我们相关的技术也会在我们的开放平台、讯飞听见等上线 。


推荐阅读