宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力( 四 )


宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
电商、物流+多模态发展空间大 , 突破口在哪?
尽管电商和物流业中 , 计算机视觉和多媒体技术已经有很多落地应用了 , 比如拍照购、内容审核和物流园区作业人员行为规范管理等 , 但在姚霆看来 , 纵观整个电商和物流体系 , 依然有一部分业务需要人工检验确认步骤 , 还远远没有达到计算机视觉和多媒体技术完全自主的阶段 。 简言之 , 当前电商、物流场景与这些技术的结合还处于局部智能化的阶段 , 整个产业链并没有得到颠覆性的革新 。
“我们希望 , 随着整个电商平台和供应链的不断数字化 , 加上智能配送系统的持续发展 , 未来的电商、物流业务可以从计算机视觉和多媒体技术辅助的方式 , 逐渐转变成为由这些技术完全主导的机器自助 , 乃至多机协同 , 在电商与物流的每一个环节上都尽可能地使用智能的方式进行全局调度 , 寻求更加高效智能的供应链 。 这也正是我们目前正在建设的智能供应链开放平台的愿景 , 即依托人工智能技术与供应链系统 , 打造智能供应链产业生态 , 赋能现代供应链的生产、流通、消费三大场景 。 ”虽然电商和物流业中多模态技术的应用还不够成熟 , 但姚霆十分看好这一领域的发展空间 。
多模态技术被很多人视为未来获得真正的机器智能的途径之一 , 对于这一观点 , 姚霆表示不能完全认同 。 他认为 , 首先需要肯定的是 , 相比于只侧重单一模态的技术(比如图像识别、动作检测、机器翻译等) , 多模态技术一定距离真正的机器智能更近一些 , 因为机器智能的终极目的是模拟人的智能 , 而人之本身对于这个世界的认识一定是视听说的结合 , 这就对应着多模态技术的融合 。 因此 , 对于机器而言 , 只有综合来源于不同模态的知识才能对这个真实的世界实现全面综合的理解 , 这也正是达到真正人类级别的智能的基石之一 。 但是 , 当前的多模态技术还远远未达到能通向真正机器智能的水平 , 因为它缺乏了人的智能中最为关键的推理能力 , 这也正是多模态技术在未来亟需突破的一个瓶颈 。
多模态研究历史不长 , 至今没有颠覆性的成果出现 , 要想获得进一步发展 , 多模态技术研究将来要对准哪些突破口?
对此 , 姚霆也有自己的看法 , “目前大部分多模态技术走的还是深度学习中拿大量的已标注多模态数据来喂深度模型的老路子 , 即数据驱动模型的感知计算 , 这就导致训练得到的多模态模型不具备人脑一样的推理能力 , 其在真实场景下的泛化能力也大大受限 。 如果能在现有的多模态技术中融入专家、常识知识(例如结合知识图谱) , 则能利用数据与知识的联合驱动让多模态技术更为“智能” 。 同时 , 也可以在多模态模型训练的过程中引入多种自监督的推理型任务 , “强迫”多模态模型进行推理和思考 , 这也能在一定程度上让机器去慢慢学会推理 。 ”此外 , 姚霆还指出 , 当前的多模态技术还是属于狭隘的单任务学习 , 整个训练和测试的过程都是在封闭和静态的环境下进行 , 这就和真实世界中开放动态的应用场景存在一定的差异性 。 为了弥补这一差异 , 我们可以在训练过程不断结合真实世界数据的回流来持续升级多媒体模型 , 甚至于可以利用元学习的方式来让模型自己学会如何认知新的多模态知识 , 实现适用于开放动态场景并具备终生学习能力的多模态模型 。
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
利用AssemblyAI在PyTorch中建立端到端的语音识别模型
墨奇科技汤林鹏:如何用AI技术颠覆指纹识别?
性能超越最新序列推荐模型 , 华为诺亚方舟提出记忆增强的图神经网络
研发的未来在哪里?Serverless云开发来了!
真惨!连各大编程语言都摆起地摊了


推荐阅读