宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力

【宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力】
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
受访者|姚霆 , 京东AI研究院算法科学家
采访人员|夕颜
来源|CSDN(ID:CSDNnews)
21世纪 , 没有谁不知道电商 , 工资可以不发 , 但是每个月不网购几单 , 那是不可能的!
打开熟悉的购物App , 在搜索栏输入想要买的东西 , 有时候你会发现文字不能很好地匹配你想要找的东西 , 用一张图片来搜索更简单直接 。 这种“以图搜图”的操作基本上所有电商平台现在都支持了 , 效果也还不错 。 以京东App为例 , 笔者在搜索框输入下图 , 得到结果如右图所示 , 是笔者想要的多肉植物没错 。
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
用起来很方便 , 但你可能不知道的是 , 这简单的搜索动作背后 , 却是复杂的计算机视觉技术在提供支持 , 甚至用到了图像内容、文本和高层语义属性等多个模态下的信息融合 , 来实现精准的以图搜图 。
当然 , 拍照购只是京东电商的众多应用之一 , 跨模态技术应用还有很多 , 比如推荐和信息流广告 , 内容审核也可以结合海量的商品图像与对应的商品语义属性 , 学习图像语义特征表达 。 另外 , 我们在使用京东App时可能都有过被智能客服接待的经历 , 这背后的技术 , 就是在任务驱动型的多轮对话中融入视觉到语言的跨模态转换技术 , 让智能客服可以自动地对用户上传的图片或视频进行自动应答 。
在物流场景 , 京东也成功地将视频分析技术应用于物流园区作业人员行为规范管理中 , 特别是针对监控视频的站点环境、摄像头角度和成像条件差异性较大等难点 , 京东采用了自研的基于局部——全局传播网络的通用视频特征以及高效视频事件时序检测框架 , 并融入了跨域学习技术 , 实现了同时在几百个不同的站点中全天候的作业人员操作行为实时检测 , 有效地管理了物流作业人员在各个站点的工作规范 。
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
可能会有人好奇 , 这背后的多模态技术在京东电商和物流场景中具体是如何实现的 , 多模态技术在电商和物流中还有哪些热门的落地应用 , 多模态技术本身当前发展到哪一步了 , 目前发展遇到了哪些瓶颈 , 未来又将向哪些方向发展 , 等等 。
带着这些问题 , CSDN邀请到了京东AI研究院算法科学家姚霆博士 , 来为我们答疑解惑 。
宽哥玩数码|正是多模态技术未来亟需突破的瓶颈,京东姚霆:推理能力
文章图片
师从多媒体领域领军人物Chong-WahNgo
姚霆本科和硕士毕业于中国科学技术大学 , 博士就读于香港城市大学 , 师从ACM杰出科学家 , 也是多媒体领域的领军人物之一Chong-WahNgo教授 。 博士毕业后 , 他加入微软亚洲研究院任职研究员 , 主研计算机视觉 。 2018年6月 , 姚霆加入京东AI研究院 , 担任算法科学家 , 负责领导京东视觉与多媒体实验室的视觉内容分析团队 , 研究方向主要关注视频内容理解、视觉与语言 , 以及大规模多媒体内容搜索 。
姚霆在CVPR/ICCV/ECCV/AAAI/SIGIR/ACMMM/TIP/TMM等顶级会议/期刊上已发表论文50余篇(引用率3600余次) , 现任多媒体领域顶级学术期刊IEEETransactionsonMultimedia期刊编委 。 值得一提的是 , 姚霆还是P3DResNet(视频特征学习)、LSTM-A(图像语义属性)、GCN-LSTM(图像物体关系)、HIP(图像分层解析)、X-LAN(高阶注意力机制)的作者和计算机视觉领域重要数据集MSR-VTT(视频描述生成)的创建人 , 曾带领团队获得多项视频内容理解和跨域学习竞赛冠军 , 是当之无愧的学术带头人 。


推荐阅读