『NLP』数据之战:NLP迈向实用阶段的核心所在

文章图片
随着人工智能技术越来越多的应用到我们的工作和日常生活中,人们对与计算机交互提出了更高的要求。人们显然已不满足于只是简单的人机对话,而是畅想可以达到人与人交流那样的酣畅淋漓,就像科幻片像人们所展现的那样。
但是人类相互之间的交流不是文字或文字堆砌的句子所能表达的,而是一个微妙且复杂的过程。生活中,我们可以大量的使用语气词来加强你的语气,表达你的愉悦、恼怒或者无聊。而要让计算机真正理解人类日常交流用语,单单了解单词的定义是远远不够的,计算机还要理解人类的七情六欲,甚至潜台词。
NLP实际上就是在极其丰富的人类语言之中和机器语言之间搭建无障碍沟通的桥梁。在新的 AI 技术发展下,越来越需要巨大的数据以支撑不同的场景。
文 | 京 枚
编 | 贾 伟
AI大牛沈向洋最近就职清华演讲中提到:在任何时候,构建AI都离不开数据,如何设计和构建负责任的AI,数据的来源至关重要。
当下NLP的大部分应用场景都缺少足够规模的标注数据,并且标注成本也非常高。因此准确率通常也不会很理想。
那么如何才能以低成本、时效快的高质量数据快速上手 ASR/TTS/NLP 引擎,步入NLP实用阶段呢?
针对这一问题,AI 科技评论有幸与澳鹏(Appen)中国区客户服务副总裁段杨Danny Duan 进行了一场深度对话。Danny 指出 “成品数据库不失为一个明智的选择。”
以下为完整对话内容——
文章图片
段杨Danny Duan,澳鹏(Appen)中国区客户服务副总裁。曾历任文思海辉总监,助理副总裁,AI数据服务部门负责人。
1
一个成功NLP引擎的关键因素是算法和高质量的数据,算法往往是公开的,差异化更多地来自于精准大量的训练数据,定制的数据采集标注时间长,成本高。
Q:目前在人机交互的人工智能中,声称几乎每个决方案都利用了NLP,怎么理解这句话的涵义?
Danny:人机交互有几个步骤,首先你要让机器听懂你说的是什么,比如智能音箱或者语音助手就是这样一个很典型的情况。你对语音助手说了一句话,它能在计算机内部转换为相对应的文本,因为计算机处理文本信息比较容易,这就是语音识别技术。
转成文本以后,重点就是机器要理解你想要干什么,才能知道该如何去应对。这就是自然语言理解或者或者叫NLP的任务。
文章图片
比如我对着一个智能音箱说,“帮我打开空调。” 首先,语音识别技术把我说的话转换成文字。然后通过分析文字知道我的目的是要打开空调,这后面一步就是自然语言理解(NLP)的任务。它理解了,知道我要做的是打开空调,于是就操纵空调上的接收器去打开,包括进一步设置到某一个温度。现在基本上各种自然语言理解引擎都是把各种各样的输入信息转换成文本来进行处理、分析、切割,进行语意的提取,包括情绪的提取。可以说这是真正实现人机交互的基础。
当然整个交互的链条上还有一步,就是机器可能会与你对话,这里用到的就是语音合成(TTS)的技术,相当于机器发声。还有一个分支是跟语音交互相关的----语音翻译,这里面就需要再加上一个机器翻译的环节,把人说的话转成文本之后再转化成另外一种目标语言,再去进行NLP的处理和人机对话。
【 『NLP』数据之战:NLP迈向实用阶段的核心所在】Q:如何来定义一个成功的NLP呢?
Danny:成功的NLP其实从最终用户角度来讲很简单,就是能够像真人一样知道我要说什么,要做什么,能够做出正确的动作或者给出正确的反应。所谓人工智能,它的参照物其实就是人,这里主要指人机交互这个限定的领域。而像AlphaGo下围棋这种人工智能,与我们所说的人机交互是两个不同的方向。人机交互就是以人的行为作为标杆,Siri的语音助手或者百度音箱,对话的时候,如果我不看见你,我是不是能够感觉到你是一个机器,还是说我根本就分辨不出来你是机器还是真人。如果做到分辨不出来,那就说明这个NLP已经做到非常成功了,以假乱真了,当然现在的技术水平还相距甚远。
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队
- 上海或苏州有没有比较好的大数据培训机构
