跑分曝光|将自然语言指令映射到移动UI操作序列三星Galaxy

谷歌正在研究如何使用AI ，将自然语言指令植根于智能手机操作系统。在2020年计算语言学协会（ACL）会议接受的一项研究中，该公司的研究人员提出了语料库来训练模型，以减轻应用操纵的需求，以希望帮助视力障碍者使用智能手机。
当需要协调工作并完成涉及一系列动作的任务时（例如，按照食谱制作生日蛋糕），人们会相互提供指示。考虑到这一点，研究人员着手进行可以帮助类似交互的AI代理建立基准。给定一组指令，这些代理将预测一系列应用程序动作以及在应用程序从一个屏幕过渡到另一个屏幕时生成的屏幕和交互元素。

上图：动作短语提取模型采用自然语言指令的单词序列，并输出一系列跨度（用红色框表示），这些跨度指示描述任务，操作和每个动作的自变量的短语。
研究人员在论文中描述了一种两步解决方案，包括一个动作短语提取步骤和一个接地步骤。动作短语提取使用Transformer模型从多步骤指令中识别操作，对象和参数描述。（模型中的“区域关注”模块允许它整体上处理指令中的一组相邻单词，以对描述进行解码。）接地将提取的操作和对象描述与屏幕上的UI对象进行匹配，再次使用一种Transformer模型，但可以在上下文中表示UI对象，并为其基础对象描述。
研究人员创建了三个新的数据集来训练和评估他们的动作短语提取和基础模型：
第一个包含187条多步骤英文说明，用于操作Pixel手机及其相应的操作屏幕序列。
第二个包含来自网络的英文“操作方法”说明以及描述每个动作的带注释短语。
第三个包含295000个单步命令，这些命令用于UI动作，这些动作来自公共Android UI语料库的25000个移动UI屏幕上的178000个UI对象。
关注区域的再预测与真实情况完全匹配的跨度序列时可达到85.56％的准确度。同时，在将语言指令端到端映射到更具挑战性的任务时，短语提取器和基础模型一起获得89.21％的局部准确度和70.59％的完全准确度，以匹配地面真实动作序列。
研究人员断言，数据集，模型和结果（所有这些数据集，模型和结果都可以从GitHub上的开放源代码获得）为解决将自然语言指令扎根于移动UI动作迈出了重要的第一步。
【跑分曝光|将自然语言指令映射到移动UI操作序列】这项研究以及总体上的语言基础，是将多阶段指令转换为图形用户界面上的动作的重要一步。成功地将任务自动化应用于UI域有潜力显着改善可访问性，其中语言界面可以帮助视力障碍的人使用看得到的界面执行任务。

跑分曝光|将自然语言指令映射到移动UI操作序列

推荐阅读

张卫健|张卫健深陷私生女风波，与素人母女游船被拍，本人火速否认

梁山好汉有108人，为何会被方腊8位将领斩杀过半

了天的意思?天是啥意思

证券日报这句话，让刘强东“损失”了3.5亿元

婴儿出生46小时被偷|婴儿出生46小时被偷是怎么回事?什么情况?终于真相了,原来是这样!

最新出炉！10月14日港股通净流入60.32亿，其中22.476亿都买了它

暴雨来了，雪也要开始下！“水汽巨龙”进入我国，北方南方都要下

怎样正确清洗枕芯

装修材料如何解决厨房油烟问题?厨房油烟用什么方法解决?

中国网|中国发布丨工信部公布新能源汽车生产企业准入条件

华为|中国快充标准正式发布！四巨头都在

惠州制造“强筋壮骨” 强筋壮骨

「微知天下事」腾讯游戏、网易游戏旗下所有产品4月4号停服一天

预测|新加坡8月份非石油出口同比增长7.7％

埃弗拉|白嫖！武汉卓尔外援埃弗拉推掉国足征召，其发言引球迷调侃

泌尿外科学堂|那么肾结核你知道吗，肺结核你肯定听说过

中国新闻网|澳门立法会一般性通过《2021年财政年度预算案》法案

精灵宝可梦|腾讯《宝可梦大集结》开启首轮内测，你有测试资格吗？

先爱后性还是先性后爱？

一月内两起意外事故致2人身亡澳堪培拉一建筑工地遭批