车载语音越来越好用了,原来背后有这些原因

文章图片
不难发现 , 现在「车载语音交互」的体验越来越完善 。 它不仅能完成更多的指令 , 而且能和我们进行情感交互 , 甚至还懂得一些基本的伦理纲常 。
那现在语音体验发展到哪一步了?实现这样的体验都有哪些路径?这些路径之间有什么不同?为什么我们的体验越来越好?下面我们带着疑惑 , 一一讨论这些问题 。
现在的语音系统体验怎么好了?
首先语音的基础能力更强了 。
之前虽然能完整跑通ASR、TTS这些流程 , 能实现一些简单的NLU/NLP能力 , 但体验有很多漏洞 , 比如有可能识别失败 , 指令完成缓慢 , 交互逻辑不合常理等等 。 现在来看 , 这些基础能力正变得更强 , 基本可以称得上是一个「有价值的工具」 。
具体表现有 , 能够支持打断 , 支持多轮对话 , 支持上下文理解 , 支持中英文混合理解 , 可以自动纠错 , 支持免唤醒 , 误触率降低 , 反应速度增加 , 能够识别更轻的声音 , 能够输入更长的对话 , 能够理解一条语音多指令 , 能够理解一些普世的伦理逻辑……
说到底这些基础能力只是一种交互模式 , 是一种手段 , 真正要实现价值需要结合应用和生态 。 所以现在的车载语音还将触手伸向了更多领域:
1.将语音和软件功能结合 。 比如和操作系统结合 , 和地图导航结合 , 和车机上所有的应用生态结合 , 和市面上主流的Feed流结合 。 举个例子 , 你可以说「屏幕亮一点」 , 「回到主页」 , 「打开XX地图」 , 「我想听周杰伦的歌」 , 「搜索附近的充电站」 , 「苹果今天的股价是多少」 , 「林则徐是谁」等等 。 和多种应用结合其实是个很大的突破 , 可以想想 , 至今Siri都不能完成「我要听XX的歌」这样的指令 。
2.将语音和硬件设备结合 。 这里是指控制车内的一些硬件 , 比如开闭空调、车窗;和其他的智能设备结合 , 比如车控家 , 智能手表等等 。
另外近几年还衍生出了虚拟助手的概念 。 这对完成指令本身没有帮助 , 但在感性层面 , 它往往非常能打动消费者 。 一个合适的虚拟形象 , 往往会成为这套车机系统 , 甚至这款车的加分项 。

文章图片
同样的语音体验
不一样的实现路径 , 不一样的想象空间
可喜的是 , 现在确实已经有一部分车型 , 或完全或部分实现了上面这些功能 。 但它们的实现路径其实不太一样 。 下面我介绍3种 。
1.使用BAT的车联网方案 , 搭配对应的语音能力 。
肤浅来说 , 现在车机系统最明显的表现就是搭载各项互联网应用 , 比如高德地图/QQ音乐/车载微信/爱奇艺等等 。 所以BAT现在都有一套比较通用化的自家生态方案 , 里面有不同的功能模块 , OEM可以选择「打包上车」 , 这其中就包括车载语音系统 。
自家的生态 , 配上自家的语音 , 那肯定体验会更好一些 。 拿腾讯来说 , 他们推出了微信车载版 , 在腾讯叮当提供的语音下 , 我们收发微信语音非常流畅 。 另外腾讯还有一个产品叫「腾讯随行」 , 配合腾讯叮当收发微信位置 , 打开小程序 , 也很流畅 。 「爱趣听」也是一样 。

文章图片
当然 , 腾讯也会辅助开发系统 , 给予Feed流支持 , 做一些NLU的开发 , 所以和腾讯合作的车机系统(比如哈弗F5搭载的Fun-Life)基本都能实现我们上面说的那些功能 。 同理 , 百度(DuerOS)和阿里(斑马系统)的方案也可以 。
不过 , 虽然BAT都能实现上述功能 , 但他们还有一个共通点就是基本无法实现「全流程开发」 。 也就是说车内基础的ASR和TTS能力可能是由其他语音供应商提供 , 而BAT负责语音控制生态以及其他相关NLU的工作 。
当然 , 这并不是说BAT没有实现ASR和TTS的能力 , 据了解有些互联网大厂已经开始做相关的技术储备 。 只是语音交互是一个从前端降噪-语音触发-识别-理解-语音反馈的长技术链 , 而科大讯飞、思必驰、纽昂司等老牌语音公司 , 在ASR和TTS这种基础语音能力的工程化交付上有更多的经验 , 所以大家各司其职 , 合并合作 , 其实是更有效率的做法 。

文章图片
2.不把语音当产品 , 而把语音当平台 。
我们在《奇妙车机情报局》还测过一个产品 , 是博泰开发的擎Mobile 。 当时确实给到我比较舒适的体验 。 (这里不谈论它的产品路径 , 只谈语音功能的实现 。 )
它的识别速度很快 , 纠错能力较好 。 可以一边听 , 一边说 , 一边执行命令 , 还可以随时打断 。 我可以说话声音很小 , 也可以说很长一段话 。 它可以清晰识别 , 然后摘出长对话里的多个语音命令 。
据了解 , 如果车载语音仅依靠供应商 , 那用户的指令从触发 , 到识别 , 到理解 , 到反馈 , 再到执行 , 是一个脱离的过程 , 反应时间自然就长 。 而博泰认为 , 车载语音不只是一个技术产品 , 而应该是一个涉及到整车的电子电气架构、车辆信息安全以及车辆数据闭环的「平台」 。
所以擎Mobile是一套集成了芯片、硬件、软件、云端和生态的平台化产品 。
以导航功能为例 , 它会在识别指令的同时 , 直接抓取关键字上传到地图引擎 。 比如我说「导航到北京机场T3航站楼的停车场接个人」 , 关键词是北京、T3、停车场 。 关键词抓完 , 导航实施执行 。 所以有可能我话没说完 , 云端已经开始计算执行了 。 这是集成的好处 。
当然这个产品也并不完美 , 在我当时的体验下 , 虽然语音有很极致的体验 , 但它和其他应用生态的结合和适配比较一般 。 另外未来博泰如何把相关能力输出给OEM , 我也暂时打个问号 。

文章图片
3.自己定义语音交互框架 。
近期小鹏汽车的新车型P7火了(不是着火了) , 最亮眼的部分之一就是它的车载语音 。
【车载语音越来越好用了,原来背后有这些原因】识别速度很快 , 功能结合深入 , 对话逻辑自然幽默 , 语音助手的新形象也更高级了一些 , 而且语音反馈的女声实在是很甜美 。 这其实能表明 , AISpeech和XpenginHouse把ASR做的扎实 , TTS优化地好 , NLU也做了比较深刻的训练 。
值得一提的是 , P7的语音交互框架是小鹏自己搭建的 , 所以它也不只是个简单的产品 , 而是个平台 。 它可以在初期就构建很多深层的功能 , 让车内的数据联动起来 , 同时对数据安全和用户隐私进行保护和封锁 。 也正因为功能是自己定义的 , 所以用户数据自然也就跑到自家口袋里来 , 这就让运营用户成为可能 。
相对BAT提供的语音能力 , 小鹏汽车有完全自主的产品定义权;相对博泰 , 小鹏汽车有产品做支撑 。 P7的语音系统确实是一个占优势的产品 。

文章图片
另外 , 再说说说自己搭建语音交互框架有多重要 。 我举个反例 。 近期我们体验了一套传统豪华品牌下全新换代车型的车机系统 。 这套语音系统的框架是德国定义的 , 语音供应商分别有两家 , 一家是纽昂司 , 一家是国内供应商(我们暂且称它为XX) , 同时它还接入了天猫精灵的能力 。
纽昂司和XX都承担了ASR和NLU的任务 , 算是并行关系 , 所以用户输入任何一个指令 , 这俩通道都要跑一遍 , 最后它俩统一口径实行指令 。 一旦谁慢了 , 就要互相等着 , 所以这套语音的执行速度较慢 。 而且它的TTS有拖音现象 , 据说是历史遗留问题 , 是上代车型上的老方案 , 所以只能如此 。 再说天猫精灵 , 它并不会自然唤醒 , 而是你要对唤醒的语音说一句「你好 , 天猫精灵」 , 它才会出现 。
这么看来 , 这个语音交互框架是挺乱的 , 但大厂认可自己的节奏就行 。 而且倒也不是说要一味的激进 , 因为不是每个大刀阔斧的产品都是成功的 。 所以 , 激进还是保守 , 后果都要自己承担 。
为什么现在的车载语音系统变得好用了?
车载语音的完善 , 供应商和OEM都做出了努力 。
从供应商方面来说 , 早期的语音供应商并没有开箱即用的语音方案 , 都需要大量对接、磨合 。 现在各家方案在工程化上解决问题越来越多 , 实用性也就越来越好 。 具体表现就是各个技术环节的指标都有量的提升(这里包括抗噪、识别、理解) 。
在OEM方面来说 , 语音的交互框架更完善 , 从以前的单工单轮交互逐渐往多轮连续对话能力升级 , 对话更自由;NLU的泛化支持更充分 , 语音识别更准 , 对话逻辑更自然;功能应用更丰富 , 更实用 , 语音和各功能的融合更深入 。
简单来说 , 软硬件技术的升级 , 让机器能听清我们说什么;更丰富的语料和更完善的语音模型 , 让我们能听清机器说什么;同时上车的功能更多更实用 , 能满足我们更多车内的需求 。 以上 。

文章图片
总结
谈起语音进入汽车 , 可能要追溯到10年前 。 如今2020年了 , 车内语音交互终于让我们感受到了进步 。
上面我们谈到现在的语音交互如何好用 , 实现路径有几种 , 也分析了背后的原因 。 这是每家供应商在推着行业往前走 , 也是每个车厂自己的选择和节奏 。 也许有些路是走弯了 , 甚至走错了 , 但好的方面是 , 汽车配置的越来越下沉 , 用户能用更合理的钱获得更好的体验 。
最后来思考一个颠覆问题:语音交互一定是车内最好的交互方式吗?如果不是 , 那上述话题就意义不大了 。 事实上 , 我们确实在一边大力发展语音交互同时 , 一边寻找新的交互方式 。
本文作者:Bernice
推荐阅读
- IG生死局语音曝光!宁王抱怨英雄有问题,Rookie劝教练换个思路!
- 法律|厘不清的边界 “车载法庭”巡回审理
- rookie|IG生死局语音曝光!宁王抱怨英雄有问题,Rookie劝教练换个思路!
- 亚洲新能源汽车网|2020下半年即将上市新能源车型&车载显示盘点
- Hello语音|Hello语音护苗故事分享会 警察叔叔开讲啦!
- 百度输入法首发功能体验,中英文混说?怎么说都能语音输入
- 游戏画质越来越好,带给我的快乐却越来越少,是游戏不好玩了吗?
- 到了9月之后,运势越来越好,开启幸运模式,好运连连的三大星座
- CSGO:主播因为实力太强,被怀疑开挂,QUQU开口后被认为是语音包
- 汽车娱生活|全新奔驰E级流出,搭语音唤醒控制,配四驱,又有搬砖的动力了
