语音识别算法原理不完全归纳

语音识别的研究历史悠久 , 出现了许多著名的算法和工具 。从事语音算法工作两年期间 , 我在语音识别方向做了一点工作 , 对此有一些体会 。面对诸多的算法如何学习掌握呢?我认为一个不错的方法是归纳不同算法的异同 , 形成体系 。由于个人的知识有限 , 这里说的归纳也是不完全的归纳 。但我相信 , 随着知识面不断拓展 , 个人的认知会逐渐从偏到全 。
本文主要讨论如何从 ASR 的原始的优化目标出发 , 以一个较为统一的视角看待传统 ASR 算法和端到端 ASR 算法 , 各类算法的具体实现和训练优化留到以后文章再讨论 。现代成熟的语音识别系统包含音频采集、前处理、识别、后处理等模块 , 本文关注的也仅仅是识别模块 。

语音识别算法原理不完全归纳

文章插图
语音识别 pipeline, 本文关注点在于 ASR Model
本文目录1. 语音识别问题形式化2. 传统 ASR 算法原理2.1 动态展开的解码2.2 引入 WFST 的静态图解码2.3 声学模型2.3.1 基于 HMM 的声学模型2.3.2 基于 CTC 的声学模型2.4 语言模型3. 端到端 ASR 算法原理3.1 CTC-based E2E Models3.2 RNN-Transducer、RNA、Neural Transducer 等3.3 Attention-based E2E Models3.4 引入了 WFST 的端到端算法3.5 拓展思考4. 总结5. 参考资料1. 语音识别问题形式化语音识别可以看做是语音内容理解的一个子任务 , 目的是获取一段语音中包含的文本内容 。可以这样定义语音识别:根据特征帧序列
语音识别算法原理不完全归纳

文章插图
 , 穷举所有可能的 Token 序列
语音识别算法原理不完全归纳

文章插图
 ,  获取后验概率最大的序列
语音识别算法原理不完全归纳

文章插图
, 即
语音识别算法原理不完全归纳

文章插图
 
我们常会以 


    推荐阅读