『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨( 三 )


总的来说 , SMLTA模型解决了两个体验难题:一是满足实时率 , 降低延迟 , 大幅优化了用户体验;二是提高离线与在线语音识别率 , 在行业中获得全面领先 。
这不仅仅是百度语音的技术制高点 , 也代表了中文语音识别技术跻身世界顶流的荣耀和贡献;
同时 , SMLTA模型在百度输入法产品上大规模上线 , 服务中国数亿用户 , 借助云端智能实现了产业端的低成本落地 , 让实验室技术得以真正赋能每一个人 , 这也成为百度AI产业化能力的佐证 , 也让百度输入法一跃成为AI语音技术落地的“领路人” 。
2.AI技术的累累砖石 。
当然 , 完整的产品体验也需要完整的技术矩阵来支撑 。 如果说SMLTA模型“高举高打” , 奠定了百度输入法的绝对差异化优势 , 那么AI技术的全面铺开 , 就成了百度输入法技术长城所必不可少的一砖一石 。
比如 , 百度输入法就利用深度神经网络对输入文本进行建模 , 打造出了智能预测功能 。
它可以根据用户的使用习惯 , 在已输入词语的基础上进行长句补全 , 大大提高了输入效率 。 在游戏、聊天等场景中 , 只需要输入开头几个字 , 比如“为什么” , 百度输入法就会根据前后语境自动联想 , 弹出“为什么不理我”“为什么不打上路”等提示 , 极大地方便了大家网上对话(对骂)有没有?
目前“智能预测”已经在微信、QQ、淘宝、王者荣耀、绝地求生等场景实现整句预测推荐 , 还可以根据不同应用与不同场景 , 提供不同的预测 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
再来说说其他AI技术应用 。
想要让用户将自己从画面中完整地“抠出来” , 做成AR表情 , 就需要图像分割技术的支持 , 让机器很好地识别出图片内容 , 进而叠加上全景动态素材 , 才能实现将人物置身于虚拟场景的效果 。
2019年 , 百度输入法的“AR表情”功能使用次数就已超过1亿 , 可见基于AI的创新已经在不知不觉中渗透进了年轻人的社交语境当中 。
另外值得一提的是炫酷的凌空手写 。
如果说语音输入是引领行业的操作 , 那么凌空手写可以说是率先感受未来的 。
百度通过双神经网络模型——一个基于灰度图的指尖跟踪模型 , 另一个基于多方向特征文字识别模型 , 让用户只需要最普通的RGB摄像头 , 就可以实现手在空中挥舞 , 输入法就能精准识别出来 。
为了保证识别结果的连续和稳定性 , 百度输入法的研发团队还针对锯齿和连笔在三维空间的手写识别算法进行了大量优化工作 , 并准备大规模应用 。
可以说 , 百度输入法又一次站在了行业桥头 , 引领着产业技术迭代的方向 。
等待百度输入法补全的产业续曲
通过拆解百度输入法的技术路径 , 可以更为清晰地看到 , 在未来的一段时间内 , AI托起的技术盛景 , 将如何更好地推动社会升级 。
首先 , 语音技术在应用端的想象空间被进一步打开 。
随着大规模用户习惯的养成 , 语音输入等AI功能的落地也成为撬动行业格局的下一个赛点 。
艾媒咨询《2019中国第三方手机输入法市场年度专题研究报告》数据显示 , 百度输入法全年月活增速居行业首位 , 表现最佳 。
其次 , 百度的技术本位 , 在输入法产品上又一次被成功印证 。
输入法作为线上交互的入口 , 也是最能够真实反映网络状态和现实趋势的窗口 。 可以看到的是 , AI与产品的结合 , 即将改变千行万业的市场格局 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
提升社会生产效率 , 恢复和持续发展经济 , 各行各业都离不开智能工具的支持 。 AI产品服务的用户边界也在快速扩大 , 这不仅考验着科技产品厂商的技术高度 , 也要求在产业化落地上交付出成熟的解决方案 。


推荐阅读