『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨


能线上解决的就绝不见面 , 已经成了疫情期间人际交往的头号铁律 。
绝大多数沟通都转移到线上 , 是一种什么体验?
最近百度公布的数据显示 , 自1月25日春节假期以来 , 百度输入法日均语音请求量已破10亿次大关 , 再创行业历史新高 。
除了高流量带来的冲击 , 还需要应对大量新增长尾群体 , 比如偏远地区人员、中老年人、少年儿童等等 , 诸多传统场景的线上化 , 也让使用频率和形形色色的需求开始激增 。
毫无疑问 , 疫情期间的特殊需求驱动着输入法行业迎击新的挑战 , 也让百度输入法这颗磐石浮出水面 。
全民语音输入浪潮 , 需要怎样的技术进行支撑?AI驱动的输入法又给社会网络生活带来了哪些变化 , 是一个智能时代背景下 , 值得思考的关键命题 。
数据洪流下的语音输入法 , 需要一副怎样的钢筋铁骨?
一个输入法而已 , 技术要求有那么高吗?想得太简单了朋友 , 全语音交互的输入法 , 和传统输入法还是有着本质不同 。
第一 , 语音输入想要达到高标准输入的水平 , 所面对的技术难题要比传统输入法复杂得多 。
比如语音输入势必会出现环境噪音 , 如果算法不够强 , 很有可能识别不清 , 还需要用户手动调整 , 大大降低产品的效率;
再比如 , 语音输入需要实时转换 , 又不能过多占用系统算力出现卡顿 , 这就对软件的智能优化提出了要求 。
而百度输入法之所以成为特殊时期人们的沟通首选 , 也得益于在语音识别上的技术优势 。 在2019年 , 百度输入法在线语音识别准确率相对提升15% , 超越行业最优竞品15% , 才能抗住用户对语音输入的高标准、严要求 , 再次刷新业界纪录 。
第二 , 访问量的激增也势必会让输入法遭遇各种不同的网络环境 。
对于一些偏远地区或受天气原因影响 , 导致手机网络信号不稳定时 , 联网状态不佳的输入法就很有可能出现识别成功率低、识别速度慢等情况 。
此前 , 大部分输入法会借助离线语音包来弥补 , 但在体验上却与在线语音相差悬殊 , 并不能解决广大用户的痛点 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
这次全民触网 , 百度输入法就以离线语音输入准确率高于行业平均水平35%的优势 , 确保网络不佳状态下的用户依然能够顺畅使用 。
第三 , 越来越丰富的人口多元化、经济全球化趋势 , 也让输入法开始应对外语输入、混合输入等难题 。
以前如果上海某CBD白领进行办公交流 , 如果要掺杂一些专有英文词汇 , 往往需要反复在中英文输入中切换 , 效率低不说 , 还经常容易出错 。
百度输入法通过技术创新 , 在完全不影响中文语音输入准确率的情况下 , 实现了高精准的中英文混合语言识别输入 。
在2019年百度AI开发者大会上 , 百度输入法就当场挑战了零误差识别中英文混合“Rap”——“你的这个新model效果比baseline好多少 , 探索技术的depth和scope是我们的责任 , 我很喜欢barrier这个词 , AI的value其实就是break barrier 。 ”
在当下的国际化、中英文日渐频繁的互联网交流语境中 , 百度输入法获得日均10亿次的语音请求量 , 也就不足为怪了 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
第四 , 如果说中英文识别考验的是技术深度 , 那么方言识别就考验着输入法厂商的语料库广度与技术布局的前瞻性 。
尤其是移动智能开始向更广大用户下沉 , 越来越多的方言用户也渴望通过语音更高效地交互 , 但不同于英文的丰富语料 , 精准识别方言需要前期进行大量的数据收集、标注、清洗、训练、优化等工作 , 加上中国各地方言数量多 , 其中还夹杂着各种小众俚语 , 难度更是指数级上升 。


推荐阅读