人工智能|声纹商战正当年


人工智能|声纹商战正当年
本文插图

作者 | 王金旺
出品 | 雷锋网产业组
“目前的‘声纹识别’市场和2014年的‘人脸识别’市场有点像 , 行业需求开始呈爆发趋势 。 ”
张伟彬博士告诉雷锋网 。
智能语音技术在国内已经火热多年 , 甚至早在十几年前 , 国内就已有一家智能语音技术公司国内上市 。
然而 , 声纹识别技术直到近两年才逐渐在公安、金融领域被“启用” 。 2018年10月9日 , 中国人民银行发布了《移动金融基于声纹识别的安全应用技术规范》 , 与此同时 , 公安公安机关也开始了应用声纹识别打击新型犯罪的系统部署……
从华南理工大学副教授到声扬科技首席科学家 , 作为国内早期从事智能语音技术研究的学者之一 , 张伟彬博士10多年来 , 从来没有离开过这个赛场 。
三年前 , 他和声扬科技的创始团队一并迈入了声纹识别这一商业领域 , 从学术研究到声纹商战 , 很多改变正当年 。
摸索:下海做家电
2016年 , 一家智能语音技术公司在深圳成立 , 声扬科技 。
当时 , 合肥有科大讯飞、苏州有思必驰、北京有云知声以及同期成立的声智科技…… , 可以说 , 智能语音技术当年在这片炽热的土地上已经遍地开花 。

如何在大势中选一个合适的方向切入这个备受关注的科技领域 , 这是当时声扬科技初创团队需要认真考虑的一个问题 。
如果翻看声扬科技核心创始成员的背景会发现 , 无论是CEO李亚桐、CTO陈东鹏 , 还是首席科学家张伟彬 , 都是混迹生物识别、智能语音领域多年的江湖老手 , 这样一个团队注定不会通过纸上谈兵决定公司方向 , 最好的决策来自实战 。
成立之初 , 声扬科技正赶上国内智能硬件发轫之际 , 智能语音技术给智能硬件、甚至传统家电带来了更多可能 。
【人工智能|声纹商战正当年】也是在这时 , 声扬科技接触到了第一个有现金流的项目——为国内某头部家电厂商抽油烟机开发智能语音控制模块 。
这个从技术上来看没什么难度的项目 , 真正到了实际工程项目中 , 还是遇到了各种问题 。 张伟彬告诉雷锋网 , 当时最大的问题就是误触发 。 为了解决这些问题 , 张伟彬戏称 , 在项目过程中 , 自己有很长一段时间都在驻场“关小黑屋” , 进行封闭式研发和调优 。
也是在这一项目中 , 张伟彬深刻体会到:
就技术落地而言 , 此前在高校科研项目中完成的可能都不到10% , 超过90%的问题都要在工程化过程解决 。
这样的体会 , 在随后的很多项目 , 张伟彬也有更深刻的感受 。
乘风来 , 也乘风去 。

这个项目并没有给张伟彬和他的团队留下太多触动 。
或许 , 对于同为技术出身的张伟彬、李亚桐、陈东鹏几人来说 , 并没有找到创业之初想要的感觉 。
良机:一个跨国项目
2017年上半年 , 机缘巧合 , 李亚桐接触到印度尼西亚国家公务员保险储蓄公司 。
当时这家公司遇到一个问题:
退休人员每个月领取养老金都需要到当地相关机构进行一次现场认证 , 一是为了证明这个人是否还在世并享有领养老金的资格 , 另外也是为了验证确实是本人领取 。
然而 , 正是这样一个程序化的过程 , 给当地本应安享晚年的老人们带来了诸多不便 。 作为一个拥有2亿人口的岛国 , 经常会看到某个银行门口拥挤着七八十岁的老人、有的甚至还坐着轮椅 , 排队认证、领养老金 。
2017年 , 生物识别技术已经在改变着一些人的生活方式 , 指纹识别在手机上已经商用多年、人脸识别也在这一年9月出现在苹果公司发布的iPhone X上 。
是否能够通过在线生物识别方式解决养老金领取时的认证问题?
这是印尼当地政府当时在考虑的问题 。
随后 , 印尼当地政府开始尝试引入人脸识别、指纹识别、声纹识别这些生物识别技术 。 其中 , 声纹识别技术采购的正是刚刚成立不久的声扬科技的技术 。

我记得非常清楚 , 当时我们两位同事去印尼采集数据时看到 , 即使是雅加达(印尼首都) , 交通也是非常不方便 , 老人家用传统现场验证的方法领取养老金虽然一定程度上避免了冒领骗保问题 , 却给这些老人带来诸多不便 。
他们有的已经七八十岁 , 有的人甚至还坐着轮椅……
他们回来后 , 发自内心地和我说:我们这个项目就算不赚钱也要把它做好 。
正是这样的原始驱动力 , 让张伟彬和他的团队开始在这一项目中全力奋战 。
在实际深入到这一项目后 , 张伟彬和他的团队感受到了声纹识别技术在落地过程中实实在在遇到的三个难题:
第一 , 噪声 。 这个问题虽然算不上特别 , 在任何场景下做语音技术都不可避免会遇到 , 但对识别准确率还是会造成影响;
第二 , 极短语音文本声纹比对 。 在这个项目中 , 认证时 , 居民需要对着手机念出手机界面上随机出现的12个印尼数字 , 然后系统会同时验证内容和声纹 , 12个数字大概需要三四秒 , 需要用这么短的语音比对出是否是本人;

第三 , 跨信道 。 现场注册时 , 居民用的是拾音效果较好的专业麦克风 , 日常认证用的则是普通电话上的麦克风 , 传统固定电话采样率又有所受限 , 4kHz采样的语音数据 , 这就形成鲜明对比——原始声音是高质量的声音信息 , 验证的时候由于传输信道比较恶劣 , 声纹信息质量就会下降 , 这也是一方面挑战 。
经过5个月的奋战 , 通过在前端信号处理及声纹特征提取应用自研的AI算法模型 , 张伟彬和他的团队将这一系统声纹识别实测准确率达到99.7% 。
最终 , 在2018年5月 , 这一系统正式上线 , 开始服务250万印尼退休人员——他们每个月只需要通过手机APP在家中就能实现在线认证 。
可以说 , 印尼社保年审项目让声扬科技赚到了第一桶金 , 同时也让他们在心底确信了声纹等语音技术能做一些对社会真正有意义的事情的想法 。
张伟彬告诉雷锋网 , 直到现在 , 我们公司照片墙上还有不少当时留下的照片 , 大家都觉得“这个项目很有意义” 。
人工智能|声纹商战正当年
本文插图

声扬科技现场采集老人声纹

正因如此 , 当2018年6月 , 李亚桐、陈东鹏、张伟彬几人就前期声纹识别、语音识别、语音信号处理等几个方向的探索进行复盘、决定未来公司大方向时 , 大家很默契地一致认为——声纹识别应该作为接下来这一阶段的主要战略方向进行投入 。
方向:哪里是起点?
复盘时 , 其实除去上述原因 , 声扬科技的创始团队也仔细梳理了语音技术的商业逻辑:
我们知道 , 语音是用来交流的 , 所以它里面包含了很多的信息 , 包括情感内容、年龄、语种等信息 , 但是这当中最重要的其实还是人的身份信息 。
同样一句话 , 工程师说出来的可能是“建议” , CEO说出来的可能是“决策” 。
我们当时觉得 , 语音是人类独有且最常用的沟通方式 , 未来也会是重要的人机交互方式之一 。 人类语音承载着身份、年龄、性别、情绪、意愿等丰富的信息 , 要把这么多的信息串联、组织、管理、应用起来 , 前提是先识别出说话人的“身份” , 这也使得我们果断地选择了以声纹识别技术作为切入点 。
此前 , 在智能语音领域已经有几家被市场看好的企业颇具规模 , 声扬科技还有机会吗?

张伟彬告诉雷锋网 , 其实传统语音公司的强项在于语音识别、自然语言处理 , 就声纹识别技术而言 , 声扬科技具有领先性 。
这可以从2019年全球声纹识别大赛中他们拿下全球第二、亚太区第一的比赛成绩看出 , 也在他们拿下被大家戏称为“宇宙第一行”——中国工商银行(以下简称:工行)的声纹识别项目中具体体现 。
工行大考:真正的战役
虽说“宇宙第一行”的称谓不无戏谑的成分在其中 , 但工行的实力、尤其是技术实力 , 不容小觑 。
据相关统计数据显示 , 2019年 , 工行全行科技投入金额163.74亿元 , 科技人员数量3.48万人 。 要知道 , 截止2019年年底 , 科技巨头腾讯的科研人员只有4万左右 。
正是这样一家完全称得上是科技金融公司的工行 , 在2017年开始准备引入生物识别技术 , 其中一项技术就是声纹识别 。
声扬科技是最早参与这一项目竞标的十几个个团队之一 , 或许他们不会知道 , 这一项目只是POC测试就进行了将近三年 。

“当时组织这一项目测试的是工行珠海软件开发中心 , 仅仅是这个产业园区 , 工行就有超过7000名研发人员 , 可见工行本身的技术实力 , 他们懂得如何去选择他们想要的技术 , ”回想起最初接触工行时的感受 , 张伟彬不无感慨 。
如何评测市面上不同厂商的声纹识别技术?
就这一项目招标 , 工行进行了为期近三年的若干轮POC测试 , 关键测试指标主要是稳定性、识别速度、识别准确率等方面的数十项指标 。
第一轮项目测试过程中 , 还有一个有意思的故事 。
2017年 , 刚刚成立不久的声扬科技还是一支只有十几人的小团队 , 在工行这一项目前期POC测试过程中 , 他们只派了一位工程师带着他们的「FinVoice智能语音认证系统」到工行现场驻场测试 , 相较而言 , 其他厂商派出的是七八人的小团队 。
这反而给工行负责人留下了一个不错的第一印象:只派一个人来 , 说明他们团队的技术是比较成熟、稳定的 。
张伟彬事后苦笑 , “其实当时是因为我们实在派不出更多人手了 。 ”
无论是一个人、还是十个人 , 在实际项目测试过程中 , 真正比拼的还是实实在在的技术能力 。

在最后一轮POC测试时 , 有这样一个要求:参与测试团队需要从一个海量人声库中找出已知的目标人群 。
走到这一轮 , 最初的十几个团队已经只剩下3个团队 , 可以说代表了这一细分领域国内顶尖实力 。
即使如此 , 这一题目也不似看上去那样简单 , 考察的是技术团队的综合实力 。
张伟彬告诉雷锋网 , “我们的系统跑了大概一两个小时就跑完了 , 另外还有一家公司跑了几天都没跑完 。 ”
说这句话的时候 , 张伟彬满是对自己团队的骄傲 , 至于结果 , 也就不言而喻了 。
正当团队在赢得工行的招标兴奋不已时 , “噩梦”才刚刚开始 。
蜕变:下一个“噩梦”
正当大家都以为经历“宇宙第一行”的工行严格POC测试后 , 就可以“高枕无忧”?
答案显然不是 。
从2019年12月POC测试完成 , 到2020年6月真正上线 , 声扬科技经历了又一场“噩梦” 。
POC测试中的要求只是正式上线应用的要求的“微缩版” , 在6个月过程中 , 声扬科技的「FinVoice智能语音认证系统」在并发性、识别准确率、识别稳定性上又经历了一次脱胎换骨的改变 。
在上线之前的三四个月里 , 此前在POC测试过程中拿到的结果基本上在工行的生产环境中全部进行了重新测试 。

在这之后 , 才有了现在在工行上线应用的能够实现“千万量级人声数据库、秒级响应”的「FinVoice智能语音认证系统」 。
人工智能|声纹商战正当年
本文插图

据悉 , 该系统在第一批信用卡声纹反欺诈场景应用已经在2020年6月在北京、湖北、四川、陕西4家工商银行分行上线 , 投产上线仅一周 , 成功防堵欺诈数十笔 , 阻止经济损失数十万元 。
更大的战场
正是这样一家智能语音领域的潜力团队 , 在近日完成了由光远投资领投 , 前海母基金、招商启航资本、水木资本与香港 X 科技基金等跟投的近亿元A轮融资 。
不难发现 , 投资声扬科技的几家投资方 , 与国内的大型银行、保险、金融、金融科技公司等都有紧密的联系 。 由此可见 , 此次融资后 , 声扬跨界不仅能够得到了资金上补充 , 更多还是业务上的协同 。
为什么资方会如此看好一家声纹识别细分领域的创业公司?
实际上声纹只是声扬科技在智能语音领域的一个切入点:
一方面 , 以银行这类大型B端客户为例 , 成为他们的供应商是进入难 , 但一旦进入了他的供应商体系 , 后续其实除了声纹之外 , 他们在语音方面的项目需求都会优先跟供应商体系内的厂商合作 , 这都是声扬科技具备的能力可以满足的;

另一方面 , 声扬规划要做的也不是声纹这个单点技术 , 更看重的是它作为语音数据中的一个关键属性——人的身份——来把整个语音数据的多维价值进行整合的中心来布局 , 从单一的「身份识别」来增强「风控」 , 到综合运用多种语音技术实现用户的「语音画像」、「智能营销」等 , 这些其实是产业方对语音数据价值应用的更多期望
显然 , 声扬科技瞄准的是一个更大的战场 。
在这一战场中 , 声扬科技未来也难免会遇到当下的几个独角兽企业 , 而这也正是这个充满变局的世界的魅力所在 。
关注物联网、智能硬件、机器人 , 新闻爆料或寻求报道 , 欢迎添加作者微信交流(添加微信请注明公司、职位、姓名):18210039208 。


    推荐阅读