NLP技术在过去几年中飞速发展 。有些只能处理简单任务 , 比如情绪分析、关键字抽取或个体识别 , 有些则可以处理更复杂的任务 , 如文本归纳或翻译 。2018年 , 微软的机器翻译团队首次在自动翻译方面达到人类水平——这是个极度复杂的任务 , 曾一度被认为是不可能实现的 。
自然语言理解最激动人心的应用之一便是机器阅读理解 。2018年1月 , 来自微软亚洲研究院的团队使用斯坦福问答数据集(SQuAD)达到了人类的水平 , 该数据集由针对一组维基百科文章的问题所组成 。实际上 , 有关这些文章的开放性问题 , 系统能够给出比人类更好的答案 。许多公司为之做出了贡献 , 帮助它走得更远 。
尽管如此 , 这些系统仍然无法达到人类的抽象层次 。在其核心 , 问答算法会搜索文本来寻找可以指向正确答案的线索 。对于每个问题 , 系统都要搜索整个文本来匹配 。人类也这么做(特别是当我们很匆忙时) , 但是当我们真正想理解一段文字时 , 我们会从中抽取知识 , 进行概括 , 并使其更易于理解 。
想象一段描述加利福尼亚的文字 。人类会从这段文字中归纳出“加利福尼亚”这个实体并给它赋予属性(如人口、面积) , 甚至与其他实体的关系(如邻州、地方长官) 。归纳后 , 我们不再需要那段文字来回答关于加利福尼亚的问题 。我们已经概括了有关的知识 。
人工智能中与此过程对应的是知识抽取 , 其对企业有着深远的意义 。通过使用这些技术 , 我们可以从混沌、无序 , 甚至令人困惑的信息中抽取高阶概念 。结果知识图不但能用于回答关于整个数据产业的宽泛问题 , 还能浏览和理解这些信息 。
这种水平的抽象远远超出了传统NLP的能力范围 , 使其更接近我们所说的认知 。
03 认知
文章插图
▲认知——基于数据进行推理
严格来说 , 认知是获取和处理知识的能力 。它包含人脑用于推理、理解、解决问题、计划和决策的高层次概念 。
我们目前探索的技术包含了一定程度的认知 , 虽然有时不那么明显 。以图像分类为例 , 如果我们仔细审视用于图像分类的深度神经网络 , 实际上就可以看出神经网络是如何在每一层将问题分解成更小的步骤的 。
没有人工干预 , 神经网络自动展示了某种程度的概括:第一层检测简单的特性 , 如边缘或纹理 。往更深层走 , 每一层都能够抽取更复杂的属性 , 如图案或元素 。某种意义上 , 神经网络已经可以获取一些知识并使用这些知识做一些基础推理 。
自然语言处理展示了类似的内在抽象 。在其核心 , 大部分现代的NLP技术都使用了被称为词嵌入的技术 。通过词嵌入技术 , 文本中的每个词都转换为一个代表单词含义的向量 。在这个新的空间 , 语义相似的词(如“天气”和“预报”)彼此接近 。
通过这种方式 , 系统会将“今天天气如何?”和“获取未来24小时的预报”匹配为相同的意图 。即使词不同 , 它们的含义却是相似的 , 因为它们的语义相近 。翻译也是相同的工作原理:翻译技术使用词嵌入来抽象输入的文本 , 将其转换为与语言无关的“想法” , 再用反向流程将其翻译为任意一种语言 。
在这些例子中 , 认知是感知的内在 。然而 , 许多人工智能场景是单纯的认知 。它们不专注于感知周围的世界 , 而是专注于抽象这个世界并基于抽象进行推理 。一些最基础的有监督学习方法便是如此 。回归分析是根据现有信息预测数值的能力 , 例如基于房屋的特征和位置评估其价值 , 或根据历史数据预估其销售额 。
分类是根据物品自身特征对其分级或分类的能力 , 例如 , 判断一栋房屋是不是会被出售给某个特定的买家 。优化算法则是基于流程进行推论 , 从而最大化某个特定的结果 , 比如在医院里分配资源 。
推荐系统仅通过评分或购买习惯就能够找出电影、书籍或歌曲等物品间不为人知的共性 。其他技术 , 如前所述 , 如聚类分析能找出数据中的模式 , 并以无监督方式对物品归类 。
推荐阅读
- seo标题优化关键词?网站标题和关键词
- 《红楼梦》中的四大家族?红楼梦三大家族
- 4大生肖桃花不断?下半年红鸾星入命, 桃花大开, 有望脱单的三大生肖
- 要精通SQL优化?首先要看懂explain关键字
- 三大看点,看懂2021年福字币
- 安溪铁观音茶,安溪铁观音的三大类型
- 吉利3大件跟奇瑞3大件哪个好?
- 中国的三个鬼节 中国传统三大鬼节
- 安溪铁观音茶叶的妙用,安溪铁观音的三大类型
- 如何写好网站关键词优化方案