语音识别概论

语音识别是一门综合性学科,涉及的领域非常广泛,包括声学、语音学、语言学、信号处理、概率统计、信息论、模式识别和深度学习等 。语音识别的基础理论包括语音的产生和感知过程、语音信号基础知识、语音特征提取等,关键技术包括高斯混合模型 ( Gaussian Mixture Model,GMM )、隐马尔可夫模型 ( Hidden Markov Model,HMM )、深度神经网络 ( Deep Neural Network,DNN ),以及基于这些模型形成的GMM-HMM、DNN-HMM和端到端 ( End-to-End,E2E ) 系统 。语言模型和解码器也非常关键,直接影响语音识别实际应用的效果 。
为了让读者更好地理解语音信号的特性,接下来我们首先介绍语音的产生和感知机制 。
01
语音的产生和感知
如图1-1所示,人的发音器官包括:肺、气管、声带、喉、咽、鼻腔、口腔和唇 。肺部产生的气流冲击声带,产生振动 。声带每开启和闭合一次的时间是一个基音周期 ( Pitch period ) 


    推荐阅读