『NLP』数据之战:NLP迈向实用阶段的核心所在( 四 )
还有一些相对比较复杂的处理,比如它还会包括时间戳,尤其是在双人或者多人对话的情况下,每个人说话的起始位置和结束位置,包括说话人的区分。很多时候还会要附带相应的发音词典。整个语音数据库,比如这500小时的音频里面可能出现了3700个不同的单词,每一个单词它按照语言学领域标准的音标表,都要把出现过的发音给标出来。
文章图片
一般这样就算是一个相对完整的语音数据库,把这样一套基本素材提供给客户,让他将这个数据集灌到模型里面去训练,参照对应的文本,时间戳,发音词典,就可以做出有一定识别能力的一个引擎。而发音词典又可以独立出来,因为单词的发音是比较固定的。所以澳鹏又有很多专门的发音词典库,近百种语言,每个语言少则几千条词条,多则几十万条词条。
Q:目前国内这些NLP在海外覆盖的多,还是中文的多?
Danny:当然国内肯定都是立足于中文普通话和方言市场,但是国内市场现在已经竞争白日化了,国外这些行业里的巨头也在试图分一杯羹,因此国内的头部企业也要寻求增长点,越来越多的是把目光投向海外市场上。比如像阿里、华为、OV、小米、科大讯飞,字节跳动这些公司这两年海外拓展力度都很大。
可以说,大家眼光一边盯着海外市场布局,一边继续在国内市场深耕以坚守自己的大本营。
4
成本低、时效快的成品数据库对ASR/TTS/NLP引擎开发事半功倍。
Q:ASR/TTS 在难度上有差别么?为什么说更适合用数据库?
Danny:其实它们是不同的应用类型,ASR就是一个语音识别。通俗说,就是把人说的内容转换成对应的文字。比如微信语音可以直接转换成文字,这就是一个直观的ASR应用。TTS(Text to Speech),就是文本到语音,在业界的一个说法就是合成语音,也就是让机器说话。TTS实际上它是反过来的,先给机器提供文本,机器对照着这个文本,相当于念稿子一样的,机器能够发出对应的音来,当然TTS合成语音的做法又跟语音识别的做法不太一样,不仅训练方式不一样,而且它所需要的数据也不一样。
相对而言,TTS的技术是比较容易的,而且也是目前最成熟的。如果从头去采集做TTS引擎的数据,即使只是10个小时的音频数据,再加上韵律标注和发音词典的制作,两三个月都不一定做得完,成本会相当高,这还只是数据准备的阶段。如果是采购成品数据库,拿到数据以后两个星期就可以完成所有数据准备和引擎开发的过程,做出一个可用的TTS引擎来,这就是数据库的好处。
再比如一个500小时的西班牙语的ASR语言数据集,如果全部从头做,跟买数据库相比成本上至少要差到一倍以上,时间上来讲连音频的采集带加工,附加对应文字的转写和发音词典,最少需要两至三个月。但如果是购买数据库,今天签合同,明天就可以传过去了。
Q:后续是否需要提供更适合需求为具体场景而定制的数据来替代成品数据库?
Danny:不完全是这样,市场上一直既有成品数据库的大量需求,也有大量需求需要定制,二者并不矛盾。任何场景都需要从基础起步,而这个阶段就是成品数据库最能发挥优势的阶段。以前人工智能技术开发所关注的场景比较少,对数据库需求的种类也少,随着场景的多元化,数据库的需求也随之增大,只是对数据内容和精度的要求持续在变化。我们的判断就是某一类需求仅仅是一个一次性的需求,还是说可能会有一些普遍的需求,对于可能会产生重复需求的,我们就可以把它制作成一个数据库。比如婴幼儿啼哭的数据,很可能做智能家居的厂家在产品研发的某一个阶段就会用到,我们认为就值得去做成一个数据库。
Q:最后,澳鹏目前也在做成品数据库,你能介绍一下你们产品的特色?
Danny: 我们根据市场上头部公司和创业公司的需求趋势,及20多年行业经验的累积,可以为我们的客户提供丰富的成品数据库来加快其AI产品的开发及迭代 。
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队
- 上海或苏州有没有比较好的大数据培训机构
