人工智能|暗物智能CEO林倞:五层认知架构,重塑多模态人机互动产业化|CCF-GAIR 2020( 二 )



人工智能|暗物智能CEO林倞:五层认知架构,重塑多模态人机互动产业化|CCF-GAIR 2020
本文插图

图3.行人重识别随机噪声干扰系统
人工智能|暗物智能CEO林倞:五层认知架构,重塑多模态人机互动产业化|CCF-GAIR 2020
本文插图

图4.干扰前后行人再识别系统召回图像示例
我们再看另一个例子 , 我们今年发表在CVPR上的工作 , 在行人再识别(Person Re-ID)问题中验证AI模型的鲁棒性 (如图3) 。 我们在训练好的行人再识别的模型中随机地增加干扰信号并观察其对性能的影响 。 我们发现 , 目前宣称达到或者超越人类的行人再识别算法 , 其精度从宣称的99%降到1.4% , 降幅超过90% 。 如图4所示 , 我们可视化部分干扰前后的检索图像 , 绿色框是在加入干扰之前目前行人再识别系统给出的最相似图像 , 其相似度是非常高的 , 但是在加入干扰之后 , 则召回的都是在外观特征上差异非常大的图像 。
上述例子说明 , 即使是对于感知层的任务 , 例如计算机视觉 , 目前的AI/CV 算法的应用依旧存在较大的局限性 。 其一是成本非常高 , 其二是算法的稳定性和鲁棒性远没有达到人类的水平 。

我们再看一个比较有趣的例子 。 1944年Heider-Simmel提出了一个著名的著名的视觉认知实验:给定一个抽象的动图 , 把三个几何体带入进行想象 , 大的三角形表示男人 , 小三角形表示女人 , 小圆点代表小孩 , 我们需要从动图中思考 , 他们在哪里?发生了什么?根据这些几何体简单的运动 , 人类可以从中感受到丰富的人物、性格、意图等社会属性 。 这说明人类基于自身认知 , 可以根据简单的视觉信息推理出背后更丰富的逻辑和因果信息 。
另一方面 , 通过脑科学研究发现 , 人的大脑皮层感知区和认知推理区域是不可分割的 , 其中 , 大概有1%的区域处理客观的视觉感知 , 而有10倍于此的区域根据视觉感知的信息进行自顶而下的推理 。 由此可见 , 人类对视觉和语言的理解 , 大部分是依赖于想象和推测 , 而不是依靠于大数据感知 。 因此 , 我认为 , 感知智能和认知智能不可分割 , 必须统一在一个计算过程中 。 人脑是这样 , 未来的AI系统也是如此 。
人工智能|暗物智能CEO林倞:五层认知架构,重塑多模态人机互动产业化|CCF-GAIR 2020
本文插图

图5. 基于知识图的精细化物体识别和视觉问答推理

基于上述观察和讨论 , 目前产学各界提出一个新的研究思路:在深度表达学习的基础上 , 引入知识图谱以及基于图的推理 , 就能进一步实现认知智能 。 现有的很多白皮书以及产业报告都认同这个研究思路 , 我们团队基于这个研究思路也做了非常多尝试 , 例如 , 我们团队把知识图推理和深度表达学习结合在一起 , 实现精细化的物体识别和大规模物体检测 , 论文分别发表于IJCAI 2018和NIPS 2018;也通过构建常识规则库 , 促进视觉问答推理任务 。 尽管这些方法采用了更接近人类的认知模式 , 也取得不错的效果 , 这类系统还是距离我们理想中的认知AI有较大的差距 。
早期神经和心理学实验表明 , 12个月大的婴儿就能够理解父母或者亲人的意图 , 也能通过手指的方式去表达意图 。 而这种能力是目前的AI系统所欠缺的:既无法理解人类或者服务对象的意图 , 也无法解释识别或者决策背后的目的和逻辑 。 所以如何实现高自然度的人机协同与互动一直是困扰我们的难题 , 在产业应用中落地起来也很不容易 。

美国国防高级研究计划局(Defense Advanced Research Projects Agency , DARPA)发布XAI计划(如图6) , 计划指出 , 目前人工智能研究是通过大数据的学习来实现 , 当我们得到AI的结果后 , 对于为什么会有这样的结果、什么时候会更好、什么时候会失败、我们能不能信赖AI等一系列问题 , 用户并不知晓 。 也就是说 , 目前的人工智能系统 , 远没有达到可解释和可信赖的阶段 。 针对这些问题 , 我们团队已经开展了较长时间的研究了 , 其实DARPA展示未来的“Explainable Model”(图6下半部分)就是DMAI创始人朱松纯教授的研究成果 。 该模型不仅可以预测任务的结果 , 还可以进一步知道得到该结果的原因、知道在什么情况下模型可以成功预测以及什么情况下会错误预测等,相关的工作发表在去年的《科学》子刊上 。 这也引出了第三个观点 , 认知人工智能必须要理解人的意图 , 懂因果 , 可解释 。


推荐阅读