带你全面了解语音交互产品 语音交互产品有哪些
编辑导语:随着手机的逐渐智能化,越来越多的手机只要听到指令就会帮助主人完成一些任务,也就是语音唤醒功能 。针对语音唤醒功能,作者详细讨论了其应用、工作原理、如何训练唤醒模型以及如何测试 。
“你好siri”、“天猫精灵”、“小爱同学”,这些名字在我们的生活中经常被叫,让他们帮我们完成一些指令,就像是让别人帮你做一件事 。
而这个命名的过程,就是我们今天要讲的声音觉醒 。
一、什么是语音唤醒 语音交互前,设备需要先被唤醒,从休眠状态进入工作状态,才能正常处理用户的指令 。
当设备从睡眠状态唤醒进入工作状态时,称为唤醒 。我们通常有触摸唤醒(锁屏键)、定时唤醒(闹钟)、被动唤醒(电话)等等,而语音唤醒是通过语音将设备从睡眠状态切换到工作状态 。
关键词检测:连续语音流中特定说话人语段的实时检测 。
可能长得好看的同学会问,我不能让他一直工作吗?
工作设备会一直对接收到的音频信息进行处理,把不是在和自己说话的声音当成有效信息,这样就会出现乱说话的情况 。语音唤醒成功避免了这个问题,只有用户叫他名字的时候工作,其他时间睡觉 。
其实需要不需要语音唤醒的能力,要看场景 。一些便宜的玩具通过按下按钮来进行互动 。
二、语音唤醒的应用有哪些 目前语音唤醒的应用范围比较窄,主要应用于有语音交互的设备,用于解决触摸不便但需要交互的场景 。
生活中最好的应用应该是智能音箱 。每个品牌的智能音箱都有自己的名字 。我们通过扬声器的名称唤醒她,与她互动并控制家用电器 。
其次,还有手机 。目前大部分手机都配备了手机助手 。从苹果最早的siri,到现在的“小爱同学”,甚至不用碰手机就能实现一些操作 。
还有一些服务类型的机器人也使用语音唤醒 。
但一般机器人会采用多模态唤醒能力,它会结合语音唤醒、人脸唤醒、触摸唤醒、人体唤醒等多维度信息,适时进入工作状态 。
三、语音唤醒的工作原理是什么 语音唤醒能力主要取决于语音唤醒模型(以下简称“唤醒模型”),它是整个语音唤醒的核心 。
唤醒模式主要负责听到唤醒词后立即切换到工作状态,所以必须实时监控,以便听到后及时反馈 。因为需要实时响应,而唤醒模型的计算能力要求低,所以一般的唤醒模型都是本地的(不同于云端的ASR识别) 。
这就是为什么即使我们没有联网,你叫“小爱同学”,她也会答应你 。
唤醒模型的算法经历了三个发展阶段:
1. 基于模板匹配 当使用模板匹配作为唤醒模型时,唤醒词通常被转换成特征序列作为标准模板 。
然后将输入的语音转换成相同的格式,利用DTW (dynamic time warping)等方法计算当前音频是否与模板匹配 。如果匹配,它就醒了;如果不匹配,它会继续休眠 。
简单理解就是找到唤醒词的特征,根据特征制定触发条件,然后判断音频内容是否符合触发条件 。
2. 基于隐马尔可夫模型 使用隐马尔可夫模型作为唤醒模型 。一般对唤醒词和其他声音分别建立一个模型,然后将输入信号(音频信息会被剪切)传入两个模型进行评分 。最后,比较两个模型的得分来决定是唤醒还是保持休眠状态 。
简单的理解就是分别对唤醒词和非唤醒词做一个模型,根据两个模型的结果对比来决定是否唤醒 。
3. 基于神经网络 使用神经网络作为唤醒模型可以分为几种类型:
有将模版匹配中的特征提取,改为神经网络作为特征提取器; 也有在隐马尔可夫模型中,某个步骤使用神经网络模型的; 还有基于端到端的神经网络方案 。任何利用神经网络原理的东西,都可以说是基于神经网络的方案 。
其实唤醒模式的工作原理很简单,就是一直等待一个信号,然后切换到工作状态,只是判断信号的内部逻辑不同而已 。
四、如何训练一个唤醒模型 一般来说,训练语音唤醒模型需要四个步骤,包括:
1. 定义唤醒词 首先,我们需要定义一个唤醒词:
觉醒词的定义也是有讲究的 。一般将3-4个音节的词定义为唤醒词 。像我们常见的“天猫精灵”、“小爱同学”、“小度”,都是四个音节 。因为汉语发音和音节的关系,你可以简单的把音节理解为字数 。
唤醒词的字数越少,越容易误触发;单词越多,越难记——这也是为什么一般用四个单词来定义 。
另外,这3-4个字要避免一些常见的读音,避免和其他读音竞争,不然会被误频繁唤醒 。
推荐阅读
- 半分钟了解产品运营模式 什么是产品运营模式
- 带你玩转北京一卡通 北京一卡通使用范围的城市
- 带你全面了解ASO分析 aso分析工具是什么
- 全面解析信息流平台 信息流平台是什么意思
- 半分钟了解竞价推广 竞价推广目的和基本的流程
- 3分钟了解产品开发 电商产品开发是做什么的
- 文玩|课堂 | 莫西西、铁龙生、干青翡翠傻傻分不清楚?一文带你读懂
- 带你全面了解美柚 美柚广告投放效果好吗
- 全面解读二八法则 柏拉图分析法二八原则图解
- 到你全面了解需求分析 需求分析4个步骤怎么做