谷歌|微软称其人工智能可以像人一样描述图像 |

【谷歌|微软称其人工智能可以像人一样描述图像】准确地描述图像，而不仅仅是像一个毫无头绪的机器人，长期以来一直是人工智能的目标。 2016年，谷歌表示，其人工智能可以为图像添加几乎与人类一样的字幕，准确率为94% 。现在微软说它已经更进一步：研究人员已经建立了一个比人类更精确的人工智能系统，以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称，它比自2015年以来一直使用的图像字幕模型好两倍。
虽然这本身就是一个值得注意的里程碑，但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分，这样任何开发者都可以把它带到他们的应用程序中。今天，它也可以在Seeing AI中使用，这是微软为盲人和视障用户开发的应用程序，可以帮助他们了解周围的世界。今年晚些时候，字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿，它还会在桌面平台上的Word和Outlook中弹出。

本文插图

Azure AI首席副总裁埃里克·博伊德说：“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体，还代表了它们是如何交互的，以及如何描述它们。 ”优化字幕技术可以帮助每一个用户：它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说，它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见，但这些发现迅速部署到运输产品中的情况要罕见得多。 Azure AI认知服务CTO黄学冬，考虑到对用户的潜在好处，力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型，这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常，这些类型的模型使用图像和完整的字幕进行训练，这使得模型更难了解特定对象是如何交互的。

本文插图

黄学冬在一篇博客文章中说：“这种视觉词汇的预训练本质上是训练系统所需的教育；我们正在努力教育这种运动记忆。 ”这就是为什么这个新模型在nocaps基准中占据了一席之地，该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
但是，虽然打破基准意义重大，但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法，看到人工智能开发人员Saqib Shaik ，他自己也是一个盲人，也在微软推动更好的可访问性，他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑，看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。

谷歌|微软称其人工智能可以像人一样描述图像

推荐阅读

这位|鲁公伯禽，这位奴隶主政治家的“舐犊情深”

用DISM++给原版Windows系统注入驱动

看到45岁的她，她为复出也是蛮拼的，如今颜值回春衣品上涨

##140㎡简约主宰，自然元素的呈现，充满人情温度

如何用纸折一个漂亮的爱心

进京履职47天，慎海雄职务再调整

草鱼|周末出发去成都最美田园乡村，有百亩绣球花，可野餐、垂钓、露营

超贵的皮草大衣穿不出高级感？学会这些穿搭精髓，造型时髦有气质

茶情,茶道,茶境,茶道修养篇之习茶七忌

给妈妈送什么礼物好送妈妈的礼物清单

如何在《使命召唤：战区》中达到144+FPS，抢占先机

专注游戏那点事儿|“镜”敢自称“飞雷神”？司马懿、女娲：我能飞半张图，她：都是弟弟

大叶滇红茶醉金枝,普洱茶月光金枝

安徽怀远14岁少年喝完白酒后又服下6片头孢

普五|国窖1573价格1399元，青花郎1299元，新渠道茅台酒1399元！

周迅|李小平新剧播2集，收视破1，不愧是你们盼了2年的央视“王炸”剧

婚后全款买房,房产证上只有一方名,请问根据新婚姻政策,房子是不是属于夫妻共同财产?

何二维一|灌篮高手手游：“进阶三井”技能动图全曝光！转陀螺MVP

健康直通车■这两种人也容易出现脂肪肝，除了爱吃甜食、不运动

[]想要钓好鱼，就要会选竿，如何选择一款合适的鱼竿呢？