『NLP』数据之战:NLP迈向实用阶段的核心所在( 五 )


 『NLP』数据之战:NLP迈向实用阶段的核心所在
文章图片

  • 语音识别库(ASR)64种语言, 21,000小时
  • 合成语音库(TTS)3种语言4种音色
  • 发音词典98种语言,460万词条
  • 词性词典21种语言,190万词条
  • 命名实体库(NER)8种语言
  • 词形分析器3种语言
  • 黑人面部图片1000人13万张
  • 中国人带口罩面部图片1000人7000张
  • OCR图片泰语、芬兰语、中文各5000张
  • 婴儿啼哭音频数据300人300分钟
  • 家猫表情动作视频1000只
除了这里列出的数据库以外,我们还在持续制作新的数据库来满足市场需求,也非常欢迎战斗在AI技术一线的同行们向我们提出数据库的期望。
AI 科技评论注:欲了解澳鹏在成品数据库方面的工作,可以访问此链接, https://www.appen.com.cn/off-the-shelf-linguistic-resources/


推荐阅读