微软称其人工智能可以像人一样描述图像
准确地描述图像 , 而不仅仅是像一个毫无头绪的机器人 , 长期以来一直是人工智能的目标 。 2016年 , 谷歌表示 , 其人工智能可以为图像添加几乎与人类一样的字幕 , 准确率为94% 。 现在微软说它已经更进一步:研究人员已经建立了一个比人类更精确的人工智能系统 , 以至于它现在位于nocaps图像捕获基准的排行榜首位 。 微软声称 , 它比自2015年以来一直使用的图像字幕模型好两倍 。
虽然这本身就是一个值得注意的里程碑 , 但微软并不只是将这项技术独家 。 它现在提供新的字幕模型作为Azure认知服务的一部分 , 这样任何开发者都可以把它带到他们的应用程序中 。 今天 , 它也可以在SeeingAI中使用 , 这是微软为盲人和视障用户开发的应用程序 , 可以帮助他们了解周围的世界 。 今年晚些时候 , 字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿 , 它还会在桌面平台上的Word和Outlook中弹出 。

文章图片
AzureAI首席副总裁埃里克·博伊德说:“[图像字幕]是人工智能中最棘手的问题之一 。 它不仅代表着理解场景中的物体 , 还代表了它们是如何交互的 , 以及如何描述它们 。 ”优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像 。 对于视障用户来说 , 它可以让网络和软件导航变得非常好 。
看到公司吹嘘他们的人工智能研究创新并不少见 , 但这些发现迅速部署到运输产品中的情况要罕见得多 。 AzureAI认知服务CTO黄学冬 , 考虑到对用户的潜在好处 , 力推将其快速整合到Azure中 。 他的团队用标有特定关键字的图像训练了这个模型 , 这帮助它提供了一种大多数人工智能框架所没有的视觉语言 。 通常 , 这些类型的模型使用图像和完整的字幕进行训练 , 这使得模型更难了解特定对象是如何交互的 。

文章图片
【微软称其人工智能可以像人一样描述图像】黄学冬在一篇博客文章中说:“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆 。 ”这就是为什么这个新模型在nocaps基准中占据了一席之地 , 该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好 。
但是 , 虽然打破基准意义重大 , 但对微软新模式的真正考验将是它在现实世界中的运作方式 。 根据Boyd的说法 , 看到人工智能开发人员SaqibShaik , 他自己也是一个盲人 , 也在微软推动更好的可访问性 , 他将其描述为比他们之前提供的产品有了戏剧性的改进 。 现在微软已经建立了一个新的里程碑 , 看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情 。
推荐阅读
- 番茄炒鸡蛋先炒番茄还是先炒鸡蛋?其实都不对,正确方法送给你
- 糖尿病|这根血管堵了,离死亡最近!三个预警信号,糖尿病患者尤其要注意!
- 埃隆·马斯克|马斯克薛其坤对谈:火星地球各有生存之道
- 它,有“蔬菜之王”的美称,炒一炒就出锅,清爽可口,好吃不胖
- 金属|飞机头突然断掉:其实金属也会累
- 家常晚餐,4个菜2个是海鲜,其中一道很多人吃不惯却是我的最爱
- 有两种谷物被称为“长寿食材”,却很少人当主食吃,从今天要改
- 神农架|“神农架”深处为何不让前往?其中的古怪现象,科学家至今没搞懂
- 武汉|《柳叶刀》:武汉人群新冠抗体阳性者占6.9%,其中82%系无症状感染
- 乙肝|乙肝药物筛选,日本科学家发现,其他步骤靶点ponesimod
