『NLP』数据之战:NLP迈向实用阶段的核心所在( 三 )


数据库的优点很明显:第一,成本低;第二,时效快。成品数据库可极大提升以机器学习作为核心技术的创业公司的竞争力。
Q:现在一些厂家如澳鹏都提供一些成品数据库,怎么看待数据库对NLP引擎的作用?
Danny:数据有不同的来源,你可以花钱去采集,比如花钱请一个人录一小时的音,也可以找一些公开的数据,比如演讲视频或者是有声读物,网站上的文字图片等等。还有像语音助手、智能音箱、语音输入法这些APP,如果经过用户的授权,在你用这些APP时就已经把真实的用户数据提供给开发APP的厂商了。
但这些都各有优缺点,用户数据是免费的但不可控。如果你需要一些特定的数据,你就有可能找不到你需要的数据。当然你也可以花钱去定向采集,但钱花多了能否承受,如果去找公开的数据,能找到多少是多少,又不具有系统性和针对性。
数据库有什么存在的价值呢?第一,它是现成的,拿来就能用,而如果采集一个一千人说话的数据再进行标注,你可能需要两个月到三个月,在当今的互联网时代,一个产品周期都过去了。第二,数据库成本低,因为这不是为某一个人的特定需求去定向采集的,做好了可以反复的卖,每次卖的时候,价格就可放低,在资金有限的情况下是非常重要的因素。
但是它不好的地方呢?它已经是现成的,所以不能改,它不是针对你的某一个具体的应用而特意优化的,所以数据库是有很确定的使用场景,比如开发一个自然语言理解的引擎,或者语音识别的引擎,在早期阶段用数据库是一个非常好的方式,但是到后期针对你的应用场景再调试的时候就需要去补充其他定制的数据。
所以一直以来很多做人工智能的企业,都非常愿意去买数据库。他们开发一个早期的引擎,就是希望以低成本和很短的时间快速上手进入市场。这对当下中国市场来说尤为重要,因为中国市场的迭代速度比欧美要快的多,可以说时间就是生命。
所以说在国内,像澳鹏这种成品数据库,拿来就能用的,确实非常受欢迎。
3
成品数据库不仅对初创公司尤为重要,像Google、Facebook等这样的巨头对其需求也始终很旺盛。
Q:数据库对一些创业型公司非常适用,但对Google等这样的头部厂商呢?
Danny:事实上,这些大企业他们的需求可能还会更多。一方面他们会把同样的引擎推向不同的应用场景,另一方面会推向不同国家的市场, 这样就会不断地重复从基础到定向开发的循环。
 『NLP』数据之战:NLP迈向实用阶段的核心所在
文章图片

比如去年的一个美国英语双人对话的数据库,中国的客户和美国的客户都有大量需求,绝大部分还都是很有名的大公司,为什么呢?因为他们进入到了一个新的阶段,比如单人说话的识别引擎差不多了,要拓展到能够识别两个人对话,多人对话,甚至多人开会,一个人说话这样的语音素材显然不够了,而是需要双人对话的语音素材,那么就相当于从一个较低的起点再开始,这正是数据库最适用的地方。
而另一个非常明显的趋势是目前中国这些领先的企业在拓展海外市场时,对中文以外的海外语言和外国人图像的数据库的需求也越来越旺盛。
Q:成品数据库里面都是一些标注好的数据吗,还是已经训练好的数据?
Danny:数据又可以分为训练数据和测试数据,数据库都属于训练数据。比如一个西班牙语500小时的语音识别数据库,它最主体的内容就是500小时的可能是500个人或者800个人每个人说很多句话的录音音频。但是光有这些录音往往还是不够的,还要对这些数据进行一些加工,比如说要做转写,提供相对应的文字文本,要让计算机知道每一条音频文件里面的波形图对应的是什么文本内容,这样才能进行引擎训练。
做语音识别引擎的训练,比如一条音频10秒钟长,不仅要识别出来说的话,凡是这一段音频里面出现的声音都要能够辨别,比如开门的声音,打喷嚏的声音,小孩在哭的声音,放音乐的声音,或者旁边有汽车经过的声音,都要能够识别出来这是有用的声音内容还是无用的干扰声,所以语音转写它还包括区分各种各样类型的声音。


推荐阅读