『NLP』数据之战:NLP迈向实用阶段的核心所在( 二 )
Q:NLP的难点主要体现在转换的过程,也就是从语音和图像转换成文字这一部分?
Danny:其实真正的难点不在于转换的过程,而在于分析的过程。因为分析文本,并不是说简单地把一些词或者句子的内容识别出来,因为你是要识别意图的。而最麻烦的是,人的意图是发散的。我说“把空调开到26度”,这是一个确定的、有限的集合,作为智能家电也好或者智能音箱也好,相对比较容易应对。但更多的情况下,我说的话是模糊的,有多种可能的含义,而且往往是有上下文的,附加背景知识的,这本身就是一个开放的集合,这种情景下NLP引擎能够做到准确分析正确应对就难度非常大了。
基于以上的原因,所以各个厂家在做NLP引擎或者应用的时候,他们往往都会事先圈定好一些应用场景,比如一些最常见的设闹钟、设日历、客服对常见问题的回答,或者一些常见的搜索内容,点播视频或者找餐馆这些。这样在相对有限的一些场景里面,它才可以对常见的意图进行理解分析和应对。对引擎训练范围之外的内容,它就会说对不起,我没听懂你说什么。
这也是为什么你会发现跟语音助手对话的时候,它经常会说我没听懂,然后把你说的话转成文字,给你一个相当于网上搜索的链接,事实上这就是因为它背后的NLP引擎没有办法处理这一类的内容。
Q:它没有办法甄别像语气这类吧,因为不同的语气,从情绪上面可能意思会截然相反,实际上也就是无法解锁情绪分析?
Danny:语气是情感分析的一部分,这是很重要的一个方面,也可以说是一个难点。如果你试着用不同的语气跟一个语音助手说话,比如用一个反问句,它很可能会给你一个错误的对答。
目前也不是说没办法。一方面,需要用大量的数据进行训练来覆盖各种各样的场景,包括类似的内容不同的语气,不同的上下文所代表的不同含义;另一方面,做任何事情都有不同阶段,首先要把最基本的阶段夯实,然后才能再逐步叠加各种复杂的维度。比如正常对话的语气,正常语速,没有特别明显的环境噪音,也没有很多人同时在说话,也都是非常普通的内容,这种最基础的、最常规的场景先要先训练好,才能逐步追求更高复杂度的。
Q:目前NLP基本上还是处在一个比较常规和基础的上面,远没达到对复杂维度的处理层面?
Danny:可以这样说,就是在常规的程度上,觉得可以用,但离实际应用场景中的“好用”相对还比较远。但是各厂家的做法不一样。对百度、微软、Google和Apple这种头部大厂商来说,他们更多着眼于通用场景,而其他一些厂商则主要聚焦某些特定场景,比如在开车的时候人机交互的场景;在医院里跟医生、病人对话的场景;或者客服的场景,通过缩减它的使用范围,在有限的投入之内用有限的数据,这样比较容易训练出一个可用的NLP引擎。
因为自然语言处理不仅仅是机械的去识别声波,它实际上是非常模糊的去识别、去判断人跟你交流的意图,这个复杂度确实非常高,一旦出错,很可能理解成相反的东西,甚至造成灾难性的后果。
Q:算法对NLP是第一位的吗?
Danny:做任何人工智能的技术或者产品的研发,其实都需要三样东西,算法、算力和数据。算力本身就是一个支持性的东西。对于NLP而言,算法的理论突破是隔一段时间才会出现,而且现在行业内算法的研究普遍是开源性质的,各家的区别不大。所以真正核心的是数据。
文章图片
而数据本身是千变万化的。比如把NLP和语音识别相对比,关于中文的语音识别,中国字的量,包括各种各样的口音,这些都是有限的。但是说话的内容和所表达的意图却是无限的,而且会有层出不穷的新内容出现。比如像新冠肺炎这种,如果引擎到今年不更新,它可能就识别不了。因此这些AI公司,就需要大量的数据去训练,并且持续训练他们的模型。
2
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 假如把中国电信监测到的3亿人一个月每天上网的所有行为打个包,哪些数据应该被提出从这些数据能得到啥
- 游戏公司一般咋识别游戏脚本
- 城市数据团是怎么样一个团队
- 上海或苏州有没有比较好的大数据培训机构
