『NLP』数据之战：NLP迈向实用阶段的核心所在( 二 ) 所在|核心|阶

Q：NLP的难点主要体现在转换的过程，也就是从语音和图像转换成文字这一部分？
Danny：其实真正的难点不在于转换的过程，而在于分析的过程。因为分析文本，并不是说简单地把一些词或者句子的内容识别出来，因为你是要识别意图的。而最麻烦的是，人的意图是发散的。我说“把空调开到26度”，这是一个确定的、有限的集合，作为智能家电也好或者智能音箱也好，相对比较容易应对。但更多的情况下，我说的话是模糊的，有多种可能的含义，而且往往是有上下文的，附加背景知识的，这本身就是一个开放的集合，这种情景下NLP引擎能够做到准确分析正确应对就难度非常大了。
基于以上的原因，所以各个厂家在做NLP引擎或者应用的时候，他们往往都会事先圈定好一些应用场景，比如一些最常见的设闹钟、设日历、客服对常见问题的回答，或者一些常见的搜索内容，点播视频或者找餐馆这些。这样在相对有限的一些场景里面，它才可以对常见的意图进行理解分析和应对。对引擎训练范围之外的内容，它就会说对不起，我没听懂你说什么。
这也是为什么你会发现跟语音助手对话的时候，它经常会说我没听懂，然后把你说的话转成文字，给你一个相当于网上搜索的链接，事实上这就是因为它背后的NLP引擎没有办法处理这一类的内容。
Q：它没有办法甄别像语气这类吧，因为不同的语气，从情绪上面可能意思会截然相反，实际上也就是无法解锁情绪分析？
Danny：语气是情感分析的一部分，这是很重要的一个方面，也可以说是一个难点。如果你试着用不同的语气跟一个语音助手说话，比如用一个反问句，它很可能会给你一个错误的对答。
目前也不是说没办法。一方面，需要用大量的数据进行训练来覆盖各种各样的场景，包括类似的内容不同的语气，不同的上下文所代表的不同含义；另一方面，做任何事情都有不同阶段，首先要把最基本的阶段夯实，然后才能再逐步叠加各种复杂的维度。比如正常对话的语气，正常语速，没有特别明显的环境噪音，也没有很多人同时在说话，也都是非常普通的内容，这种最基础的、最常规的场景先要先训练好，才能逐步追求更高复杂度的。
Q：目前NLP基本上还是处在一个比较常规和基础的上面，远没达到对复杂维度的处理层面？
Danny：可以这样说，就是在常规的程度上，觉得可以用，但离实际应用场景中的“好用”相对还比较远。但是各厂家的做法不一样。对百度、微软、Google和Apple这种头部大厂商来说，他们更多着眼于通用场景，而其他一些厂商则主要聚焦某些特定场景，比如在开车的时候人机交互的场景；在医院里跟医生、病人对话的场景；或者客服的场景，通过缩减它的使用范围，在有限的投入之内用有限的数据，这样比较容易训练出一个可用的NLP引擎。
因为自然语言处理不仅仅是机械的去识别声波，它实际上是非常模糊的去识别、去判断人跟你交流的意图，这个复杂度确实非常高，一旦出错，很可能理解成相反的东西，甚至造成灾难性的后果。
Q：算法对NLP是第一位的吗？
Danny：做任何人工智能的技术或者产品的研发，其实都需要三样东西，算法、算力和数据。算力本身就是一个支持性的东西。对于NLP而言，算法的理论突破是隔一段时间才会出现，而且现在行业内算法的研究普遍是开源性质的，各家的区别不大。所以真正核心的是数据。

文章图片

而数据本身是千变万化的。比如把NLP和语音识别相对比，关于中文的语音识别，中国字的量，包括各种各样的口音，这些都是有限的。但是说话的内容和所表达的意图却是无限的，而且会有层出不穷的新内容出现。比如像新冠肺炎这种，如果引擎到今年不更新，它可能就识别不了。因此这些AI公司，就需要大量的数据去训练，并且持续训练他们的模型。
2

『NLP』数据之战：NLP迈向实用阶段的核心所在( 二 )

推荐阅读

新冠病毒|中国生物二代重组蛋白新冠疫苗获批临床：对奥密克戎等变异株有良好效果

坐高铁看中国丨青藏线带着25岁的他第一次来到拉萨

绿色青浦|中秋“四大样”热销，“牛踏扁”尤为走俏

大学生在宿舍里可以学习那些技能

季布一诺下一句?季布一诺千金是什么意思

员工：他们，坚守阵地勇担当

「解放网」“太阳花”，【看世界】从未见过的

『何大哥』有没有感觉都熟悉，一组20年前的明星老照片

家居走廊装饰画古色古香的牡丹国画家居走廊必备

装修材料楼顶漏雨怎么修?楼顶漏雨注意事项有哪些?

#我们的乐队#“我们的乐队”中没有真正好的歌曲，也没有超级神改创的经典歌曲

华为Atlas 900 AI集群荣获2020 Interop东京展AI品类唯一大奖

亚太日报@四天大吃大喝造掉数千美元，疫情下美国小偷闯入关闭饭馆

饭圈什么意思？

清华大学五道口金融学院袁平海：保险资金服务实体经济——“新知”与“笃行”

为何“双旋”女孩没人要？剖析孩子头顶旋的奥秘，家长别再迷信了

冲矢昴出场集数2021？冲矢昴出现的集数？

金百临咨询秦洪澎湃新闻|秦洪看盘｜多头布局不当，指数冲高受阻

冷冻的明太鱼怎么解冻？吃明太鱼有哪些好处

「跌停」机构跌停抢货！五大游资砸盘总龙头