宽哥玩数码|正是多模态技术未来亟需突破的瓶颈，京东姚霆：推理能力受访者|姚霆

【宽哥玩数码|正是多模态技术未来亟需突破的瓶颈，京东姚霆：推理能力】

文章图片

文章图片
受访者|姚霆，京东AI研究院算法科学家
采访人员|夕颜
来源|CSDN（ID：CSDNnews）
21世纪，没有谁不知道电商，工资可以不发，但是每个月不网购几单，那是不可能的！
打开熟悉的购物App ，在搜索栏输入想要买的东西，有时候你会发现文字不能很好地匹配你想要找的东西，用一张图片来搜索更简单直接。这种“以图搜图”的操作基本上所有电商平台现在都支持了，效果也还不错。以京东App为例，笔者在搜索框输入下图，得到结果如右图所示，是笔者想要的多肉植物没错。

文章图片
用起来很方便，但你可能不知道的是，这简单的搜索动作背后，却是复杂的计算机视觉技术在提供支持，甚至用到了图像内容、文本和高层语义属性等多个模态下的信息融合，来实现精准的以图搜图。
当然，拍照购只是京东电商的众多应用之一，跨模态技术应用还有很多，比如推荐和信息流广告，内容审核也可以结合海量的商品图像与对应的商品语义属性，学习图像语义特征表达。另外，我们在使用京东App时可能都有过被智能客服接待的经历，这背后的技术，就是在任务驱动型的多轮对话中融入视觉到语言的跨模态转换技术，让智能客服可以自动地对用户上传的图片或视频进行自动应答。
在物流场景，京东也成功地将视频分析技术应用于物流园区作业人员行为规范管理中，特别是针对监控视频的站点环境、摄像头角度和成像条件差异性较大等难点，京东采用了自研的基于局部——全局传播网络的通用视频特征以及高效视频事件时序检测框架，并融入了跨域学习技术，实现了同时在几百个不同的站点中全天候的作业人员操作行为实时检测，有效地管理了物流作业人员在各个站点的工作规范。

文章图片
可能会有人好奇，这背后的多模态技术在京东电商和物流场景中具体是如何实现的，多模态技术在电商和物流中还有哪些热门的落地应用，多模态技术本身当前发展到哪一步了，目前发展遇到了哪些瓶颈，未来又将向哪些方向发展，等等。
带着这些问题， CSDN邀请到了京东AI研究院算法科学家姚霆博士，来为我们答疑解惑。

文章图片
师从多媒体领域领军人物Chong-WahNgo
姚霆本科和硕士毕业于中国科学技术大学，博士就读于香港城市大学，师从ACM杰出科学家，也是多媒体领域的领军人物之一Chong-WahNgo教授。博士毕业后，他加入微软亚洲研究院任职研究员，主研计算机视觉。 2018年6月，姚霆加入京东AI研究院，担任算法科学家，负责领导京东视觉与多媒体实验室的视觉内容分析团队，研究方向主要关注视频内容理解、视觉与语言，以及大规模多媒体内容搜索。
姚霆在CVPR/ICCV/ECCV/AAAI/SIGIR/ACMMM/TIP/TMM等顶级会议/期刊上已发表论文50余篇（引用率3600余次），现任多媒体领域顶级学术期刊IEEETransactionsonMultimedia期刊编委。值得一提的是，姚霆还是P3DResNet（视频特征学习）、LSTM-A（图像语义属性）、GCN-LSTM（图像物体关系）、HIP（图像分层解析）、X-LAN（高阶注意力机制）的作者和计算机视觉领域重要数据集MSR-VTT（视频描述生成）的创建人，曾带领团队获得多项视频内容理解和跨域学习竞赛冠军，是当之无愧的学术带头人。

宽哥玩数码|正是多模态技术未来亟需突破的瓶颈，京东姚霆：推理能力

推荐阅读

柠檬玫瑰花茶的功效,冲泡玫瑰花茶四大注意事项

酸的水果维生素c含量高吗

虎扑足球▲2022世界杯是否该取消？，疫情当前

椰树集团|“椰树四美”穿羽绒服直播跳操，业内人士：风格改变只是套路

游泳|2020年汉中市青少年游泳锦标赛在略阳圆满结束

二木先生说|腾讯被摆了一道？，三人假冒老干妈与腾讯签合同

[上山]“连翘”花开太行山

鹿晗■2099元！小米10青春版发布：5G+三星A屏，还有潜望式长焦加持

[皇家马德里]超模女友干的？皇马大将两个月不训练复赛在即搞骨折或赛季报销

叶峰|猪肉相关板块走弱，34只个股下跌，新希望下跌5.06%

最清醒的港姐：小三上位却与原配亲如姐妹，不争产却赚了上亿身家

装修装修房子多久可以入住?新装修房子注意事项?

海峡网|陕西遭父亲抱摔幼童死亡怎么回事事件详情始末来龙去脉令人愤怒

店霸电霸：电商数据分析平台怎么选？拼多多运营怎么做？

|新中式三层四合院，外观华丽大气，四世同堂都可以住

康波财经|看看能领多少钱，什么是4050补贴？这三类人可以领

「Muster电竞」谁用谁知道，王者荣耀：拥有隐藏属性的皮肤

小鹏汽车开启全国交付，超长续航版车型需等至9月

「苹果」目前这3款手机公认值得买，一款比一款性价比高，“真香”！

[道路拥堵]限行首日，兰州这几条路段拥堵指数明显下降