AI科技大本营|Gary Marcus:因果熵理论的荒诞和认知科学带给AI的11个启示 | 文末赠书( 八 )
许多输入的句子语气是很明显的 , 也被正确地分了类 , 但句子中的细微差别往往会随之消失 。 这样的系统不能区分“我在心生厌恶之前还是很感兴趣的”(关于电影情节急转直下的负面评论) , 和“我在感兴趣之前还是很厌恶的”(关于电影的一个更为积极的评价 , 说的是影片开头没什么意思 , 随着情节的发展逐渐开始扣人心弦) , 因为这样的系统不会分析句子的结构 , 不会考虑句子成分之间的关系 , 也不明白句子的意思来源于句子的成分 。
这个例子告诉我们:统计数字经常能近似地表示意义 , 但永远不可能抓住真正的意思 。 如果不能精准地捕捉单个单词的意义 , 就更不能准确地捕捉 复杂的思想或描述它们的句子 。 正如得克萨斯大学奥斯汀分校计算语言学家雷·穆尼(Ray Mooney)用通俗语言说出的大道理:“不可能把整句的意思全部塞进一个向量里 !” 这样的要求有点太过了 。
对世界的鲁棒理解 , 既需要自上向下的信息 , 也需要自下而上的信息
看一看这幅图片 。 这是个字母 , 还是个数字?
本文插图
字母 B 还是数字 13 ?很明显 , 这幅图片既可以是字母 , 也可以是数字 , 具体取决于它所在的上下文 。
本文插图
认知心理学家将知识分为两类:自下而上的信息 , 是直接来自我们感官的信息;还有自上而下的知识 , 是我们对世界的先验知识 , 例如 , 字母和数字是两个不同的类别 , 单词和数字是由来自这些类别之中的元素所组成的 , 等等 。 这种模棱两可的 B/ 13 图像 , 在不同的上下文中会呈现出不同的面貌 , 因为我们会尝试着将落在视网膜上的光线与合乎逻辑的世界相结合 。
从心理学教科书中 , 我们会看到很多例子 。 比如 , 在一个经典实验中 , 研究人员要求人们看这样的照片 , 先将图片与特定短语相对应 , 再将图片记在脑海中 , 比如最底下那幅图对应的特定短语是太阳或船舵 , 最上面那幅图 对应的特定短语是窗中的帘子或矩形中的钻石 。
本文插图
人们如何对这些图片进行重建 , 很大程度上取决于他们得到的标签:
本文插图
我们最喜欢的关于上下文感知重要性的演示 , 源自麻省理工学院安东尼 奥·托拉尔瓦(Antonio Torralba)的实验室 。
演示中有一幅图片 , 图中湖泊涟漪的形状有些像汽车 , 其相似程度足以在视觉系统中蒙混过关 。 如果你将 图片放大 , 仔细观察涟漪的细节 , 确实会发现斑驳的光点看上去像汽车 , 但 不会有人真的认为这是一辆汽车 , 因为我们知道汽车不可能在
再举一个例子 , 看看我们从茱莉亚·蔡尔德(Julia Child)家的厨房图片 中提取的细节 。
本文插图
你能认出下面这些图中的局部吗?当然没问题 。 左边的图片是厨房的桌子 , 桌子旁边放着两把椅子(以及远处第三把椅子的顶部 , 在图片中是几乎看不出来的边角) , 桌子上面摆放着一个餐垫 , 餐垫上摆放着一个餐盘 。 右边的图片就是桌子左边的椅子 。
本文插图
但仅仅凭借桌子和椅子的像素 , 并不能告诉我们这些内容 。 如果我们用亚马逊的照片检测软件 Rekognition , 软件会将左边的照片标注为“胶合板” , 置信度为 65.5 % , 将右边的照片标注为“土路”或“砾石” , 置信度为 51.1 % 。 在没有上下文的情况下 , 像素本身并没有什么意义 。
推荐阅读
- 龙蟠科技|牛回头?快来玩?我先卖
- 小娜爱科技|“武将”初亮相已经燃炸,谁才是最强舞担!
- 汝芊爱科技|可甜可酷!关晓彤深夜出发参加时装周,小露香肩比剪刀手超可爱
- 5-10万|始于颜值,终于科技,与欧尚X7一见钟情
- 环球车讯网|喜欢这台科技感十足的SUV?别忙出手~先看养车贵不贵
- |起亚全新K5国产版首拍,空间更大/配科技联屏,9月就能买!
- 汽车市场|本田将收购安培科技1%股份 合作开发电动汽车电池
- 文德说科技|为什么郑伊健一把年纪,还留“大妈头”?看看他短发照就明白了
- 装修|尊宅科技木整装做您环保装修路上的贴身管家
- 机械|原创科幻小说 | 陈秋汛:单人科技时代