微软称其人工智能可以像人一样描述图像而不仅仅是像一个毫无头绪的

准确地描述图像，而不仅仅是像一个毫无头绪的机器人，长期以来一直是人工智能的目标。 2016年，谷歌表示，其人工智能可以为图像添加几乎与人类一样的字幕，准确率为94% 。现在微软说它已经更进一步：研究人员已经建立了一个比人类更精确的人工智能系统，以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称，它比自2015年以来一直使用的图像字幕模型好两倍。
虽然这本身就是一个值得注意的里程碑，但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分，这样任何开发者都可以把它带到他们的应用程序中。今天，它也可以在SeeingAI中使用，这是微软为盲人和视障用户开发的应用程序，可以帮助他们了解周围的世界。今年晚些时候，字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿，它还会在桌面平台上的Word和Outlook中弹出。

文章图片
AzureAI首席副总裁埃里克·博伊德说：“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体，还代表了它们是如何交互的，以及如何描述它们。 ”优化字幕技术可以帮助每一个用户：它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说，它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见，但这些发现迅速部署到运输产品中的情况要罕见得多。 AzureAI认知服务CTO黄学冬，考虑到对用户的潜在好处，力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型，这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常，这些类型的模型使用图像和完整的字幕进行训练，这使得模型更难了解特定对象是如何交互的。

文章图片
【微软称其人工智能可以像人一样描述图像】黄学冬在一篇博客文章中说：“这种视觉词汇的预训练本质上是训练系统所需的教育；我们正在努力教育这种运动记忆。 ”这就是为什么这个新模型在nocaps基准中占据了一席之地，该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
但是，虽然打破基准意义重大，但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法，看到人工智能开发人员SaqibShaik ，他自己也是一个盲人，也在微软推动更好的可访问性，他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑，看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。

微软称其人工智能可以像人一样描述图像

推荐阅读

『酒泉看点』酒泉这个地区积极推进政策性农业保险

环球网27英寸iMac更新：10代酷睿处理器+T2新品+1080p 摄像头

刘德华|刘德华哽咽落泪唱《17岁》，字字句句饱含感情，唱出了自己的心声

什么叫籍贯所在地什么叫籍贯

夏天膝盖发凉怎么治疗

明略科技智慧电力亮相WAIC-助力电力行业智能化转型

七类人吃花生，对身体百害无一益

超美时尚屋|大学学霸写的浪漫情书，证实语言就是门艺术，女生看后打动流泪！

瑞幸|陆正耀继续担任瑞幸咖啡董事长公司股票几近一文不值

呼吸疾病|只是咳嗽，为什么医生却说你得了哮喘

历史见闻|129名保持战斗姿势的战士被冻成冰雕，只为了守住战壕，1950年

龙抬头十大禁忌是什么

这周穿什么？简单又实用的职场穿搭其实是全身就突出一个点

牛嵩山和■“有幸完成这次任务，值了！”──记国网天津市电力公司后勤部副主任牛嵩山

云南省普洱市职业教育中心普洱市中小学继续教育

顺丰|微博CEO质问顺丰上热搜：官方提示不明到付件请拒收别贪小便宜

我的极刻智能减肥了解一下！，从头瘦到脚

把一个孩子从婴儿养到上大学是一种怎么样的体验可以分为几个阶段

黛彤颜|如何探寻社交电商新出路，互联网下半场

『东北菜』东北“最豪横”的5道菜，杀猪菜榜上有名，全吃过才叫正宗东北人