AI科技大本营|Gary Marcus:因果熵理论的荒诞和认知科学带给AI的11个启示 | 文末赠书( 七 )


在某些情况下 , 这种方法还不错 。 以“萨克斯”这个词为例 。 从大量英语文本资料之中 , 我们发现 , 萨克斯这个单词常常出现在“演奏”和“音乐”等动词 , 以及约翰·科尔特兰(John Coltrane)和凯丽·金(Kenny G)等人名附近 。 大规模数据库中 , 萨克斯的统计数据与小号和单簧管的统计数据接近 , 而与电梯和保险的统计数据相去甚远 。 搜索引擎可以使用这种技术或是此技术的改编版来识别同义词 。 得益于这些技术 , 亚马逊的产品搜索也 变得更加精准 。
然而 , Word 2 Vec 真正出名的地方 , 在于人们发现这门技术似乎可以用在语言类比上 , 比如“男人对女人就像国王对____ 一样” 。 如果你把代表国王和女人的数字加起来 , 减去代表男人的数字 , 再去寻找最近的向量 , 很快就得到了答案— 王后 , 根本不需要任何关于国王是什么或女人是什么的明确表征 。b 传统人工智能研究人员花费数年时间试图定义这些概念 , 而Word 2 Vec 则貌似解决了这个棘手的难题 。
在这些结论的基础之上 , 欣顿尝试着将这一观点进行泛化 。 与其用复杂的树形图来表征句子和思想 , 不如用向量来表征思想 , 因为复杂的树形图与神经网络之间的互动并不理想 。 欣顿在接受《卫报》采访时表示 :“如果用巴黎的向量减去法国的向量 , 再加上意大利 , 就能得到罗马 。 非常了不起 。 ”
欣顿指出 , 类似的技术被谷歌所采用 , 并体现在了谷歌最近在机器翻译方面 取得的进展之中 。 那么 , 为什么不以这种方式来表征所有的思想呢?
因为句子和单词不同 。 我们不能通过单词在各类情况下的用法来推测其意思 。 例如猫的意思 , 至少与我们听说过的所有“猫”的用法的平均情况有些许相似 , 或(从技术角度讲)像是深度学习系统用于表征的矢量空间中的一堆点 。 但每一个句子都是不同的:John is easy to please ( 约翰很好哄 ) 和John is eager to please(约翰迫不及待的想要取悦别人)并不是完全相似的 , 虽然两句话中的字母乍看去并没有多大区别 。 John is easy to please 和 Johnis not easy to please 的意思则完全不同 。 在句子中多加一个单词 , 就能将句子的整个意思全部改变 。
这些观点和观点之间微妙的关系太复杂了 , 无法通过简单地将表面上相似的句子组合在一起来捕捉 。 我们可以把“桌子(table)上的书”和“书上的表格(table)”区分开来 , 也可以将这两句话和“不在桌子上的书”区分开来 , 还能将上面每一句话和下面这段话区分开来:“杰弗里知道弗雷德根本不在乎桌子上的书 , 但是他非常关注那个非常特别的大鱼雕塑 , 现在 , 雕塑上摇摇欲坠地摆着一个桌面 , 而且这个桌面还有些向右倾斜 , 随时都可能翻倒 。 ”这些句子可以表现为无数种形式 , 每句话都有不同的含义 , 而这些句子所体现的整体思想又与句中各部分的统计平均值截然不同 。
恰恰是因为这个原因 , 语言学家通常用树形分支图来表征语言(通常将根部绘于顶端):
AI科技大本营|Gary Marcus:因果熵理论的荒诞和认知科学带给AI的11个启示 | 文末赠书
本文插图

在这个框架中 , 句子中的每个成分都有自己的位置 。 我们很容易将不同的句子区分开来 , 并确定句中元素之间的关系 , 就算两个句子共享大部分或全部单词也没问题 。 深度学习在没有这种高度结构化句子表征的情况下工作 , 往往会在处理细微差别时遇到问题 。
例如 , 情绪分析器是利用深度学习实现的系统 , 将句子语气分类为积极或消极 。 每个句子都被转换成一个向量 。 研究人员的想法是将积极的句子(“好喜欢 !”)由一组聚为一处的向量表示 , 消极的句子(“好讨厌 !”)由另一组聚于另一处的向量表示 。 每当出现一个新句子时 , 简单来说 , 系统只需测试这个句子是更接近于正向量集还是负向量集 。


推荐阅读