『NLP』数据之战：NLP迈向实用阶段的核心所在( 四 ) 所在|核心|阶

还有一些相对比较复杂的处理，比如它还会包括时间戳，尤其是在双人或者多人对话的情况下，每个人说话的起始位置和结束位置，包括说话人的区分。很多时候还会要附带相应的发音词典。整个语音数据库，比如这500小时的音频里面可能出现了3700个不同的单词，每一个单词它按照语言学领域标准的音标表，都要把出现过的发音给标出来。

文章图片

一般这样就算是一个相对完整的语音数据库，把这样一套基本素材提供给客户，让他将这个数据集灌到模型里面去训练，参照对应的文本，时间戳，发音词典，就可以做出有一定识别能力的一个引擎。而发音词典又可以独立出来，因为单词的发音是比较固定的。所以澳鹏又有很多专门的发音词典库，近百种语言，每个语言少则几千条词条，多则几十万条词条。
Q：目前国内这些NLP在海外覆盖的多，还是中文的多？
Danny：当然国内肯定都是立足于中文普通话和方言市场，但是国内市场现在已经竞争白日化了，国外这些行业里的巨头也在试图分一杯羹，因此国内的头部企业也要寻求增长点，越来越多的是把目光投向海外市场上。比如像阿里、华为、OV、小米、科大讯飞，字节跳动这些公司这两年海外拓展力度都很大。
可以说，大家眼光一边盯着海外市场布局，一边继续在国内市场深耕以坚守自己的大本营。
4
成本低、时效快的成品数据库对ASR/TTS/NLP引擎开发事半功倍。
Q：ASR/TTS 在难度上有差别么？为什么说更适合用数据库？
Danny：其实它们是不同的应用类型，ASR就是一个语音识别。通俗说，就是把人说的内容转换成对应的文字。比如微信语音可以直接转换成文字，这就是一个直观的ASR应用。TTS（Text to Speech）,就是文本到语音，在业界的一个说法就是合成语音，也就是让机器说话。TTS实际上它是反过来的，先给机器提供文本，机器对照着这个文本，相当于念稿子一样的，机器能够发出对应的音来，当然TTS合成语音的做法又跟语音识别的做法不太一样，不仅训练方式不一样，而且它所需要的数据也不一样。
相对而言，TTS的技术是比较容易的，而且也是目前最成熟的。如果从头去采集做TTS引擎的数据，即使只是10个小时的音频数据，再加上韵律标注和发音词典的制作，两三个月都不一定做得完，成本会相当高，这还只是数据准备的阶段。如果是采购成品数据库，拿到数据以后两个星期就可以完成所有数据准备和引擎开发的过程，做出一个可用的TTS引擎来，这就是数据库的好处。
再比如一个500小时的西班牙语的ASR语言数据集，如果全部从头做,跟买数据库相比成本上至少要差到一倍以上，时间上来讲连音频的采集带加工，附加对应文字的转写和发音词典，最少需要两至三个月。但如果是购买数据库，今天签合同，明天就可以传过去了。
Q：后续是否需要提供更适合需求为具体场景而定制的数据来替代成品数据库？
Danny：不完全是这样，市场上一直既有成品数据库的大量需求，也有大量需求需要定制，二者并不矛盾。任何场景都需要从基础起步，而这个阶段就是成品数据库最能发挥优势的阶段。以前人工智能技术开发所关注的场景比较少，对数据库需求的种类也少，随着场景的多元化，数据库的需求也随之增大，只是对数据内容和精度的要求持续在变化。我们的判断就是某一类需求仅仅是一个一次性的需求，还是说可能会有一些普遍的需求，对于可能会产生重复需求的，我们就可以把它制作成一个数据库。比如婴幼儿啼哭的数据，很可能做智能家居的厂家在产品研发的某一个阶段就会用到，我们认为就值得去做成一个数据库。
Q：最后，澳鹏目前也在做成品数据库，你能介绍一下你们产品的特色？
Danny: 我们根据市场上头部公司和创业公司的需求趋势，及20多年行业经验的累积，可以为我们的客户提供丰富的成品数据库来加快其AI产品的开发及迭代。

『NLP』数据之战：NLP迈向实用阶段的核心所在( 四 )

推荐阅读

亚太日报@四天大吃大喝造掉数千美元，疫情下美国小偷闯入关闭饭馆

『何大哥』有没有感觉都熟悉，一组20年前的明星老照片

#我们的乐队#“我们的乐队”中没有真正好的歌曲，也没有超级神改创的经典歌曲

冲矢昴出场集数2021？冲矢昴出现的集数？

大学生在宿舍里可以学习那些技能

「跌停」机构跌停抢货！五大游资砸盘总龙头

坐高铁看中国丨青藏线带着25岁的他第一次来到拉萨

为何“双旋”女孩没人要？剖析孩子头顶旋的奥秘，家长别再迷信了

华为Atlas 900 AI集群荣获2020 Interop东京展AI品类唯一大奖

季布一诺下一句?季布一诺千金是什么意思

「解放网」“太阳花”，【看世界】从未见过的

金百临咨询秦洪澎湃新闻|秦洪看盘｜多头布局不当，指数冲高受阻

绿色青浦|中秋“四大样”热销，“牛踏扁”尤为走俏

新冠病毒|中国生物二代重组蛋白新冠疫苗获批临床：对奥密克戎等变异株有良好效果

饭圈什么意思？

装修材料楼顶漏雨怎么修?楼顶漏雨注意事项有哪些?

家居走廊装饰画古色古香的牡丹国画家居走廊必备

员工：他们，坚守阵地勇担当

清华大学五道口金融学院袁平海：保险资金服务实体经济——“新知”与“笃行”

冷冻的明太鱼怎么解冻？吃明太鱼有哪些好处