语音识别是一门综合性学科,涉及的领域非常广泛,包括声学、语音学、语言学、信号处理、概率统计、信息论、模式识别和深度学习等 。语音识别的基础理论包括语音的产生和感知过程、语音信号基础知识、语音特征提取等,关键技术包括高斯混合模型 ( Gaussian Mixture Model,GMM )、隐马尔可夫模型 ( Hidden Markov Model,HMM )、深度神经网络 ( Deep Neural Network,DNN ),以及基于这些模型形成的GMM-HMM、DNN-HMM和端到端 ( End-to-End,E2E ) 系统 。语言模型和解码器也非常关键,直接影响语音识别实际应用的效果 。
为了让读者更好地理解语音信号的特性,接下来我们首先介绍语音的产生和感知机制 。
01
语音的产生和感知
如图1-1所示,人的发音器官包括:肺、气管、声带、喉、咽、鼻腔、口腔和唇 。肺部产生的气流冲击声带,产生振动 。声带每开启和闭合一次的时间是一个基音周期 ( Pitch period )
推荐阅读
- 一个超好用的开源OCR
- 标贝科技入选“2020人工智能语义识别创新排行”
- NVIDIA GPU助力博特智能加速内容识别,打造智能内容审核
- 绿植养护方法概论
- 华为|3D人脸识别+可视猫眼!华为智能门锁今天正式预售
- 黄金桂茶叶怎么识别,乌龙茶黄金桂品鉴先容
- 相亲交友时教你如何识别4类相亲男
- 用膨胀卷积进行命名实体识别 NER
- Python3编写的CMS识别工具 内置安全检测
- 教你一招识别买的新电脑是不是库存二手