cnBeta|谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”
_本文原题:谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”
据外媒报道 , 在视频通话来说 , 系统是可以通过切换的方式以突出谁在说话 , 然而不幸的是 , 对于像手语这样的无声语言其则无法触发这些算法 , 但现在谷歌的一项研究可能会改变这一点 。 这是是一个实时手语检测引擎 , 它可以分辨出某人何时在做手语以及何时结束 。
谷歌研究人员一篇在ECCV上发表的新论文描述了如何高效、几乎没有延迟地完成这项工作 。 如果手语检测成功了但却导致视频延迟或降级那就无法达到目的 , 所以他们的目标是确保模型既轻便又可靠 。
据了解 , 该系统首先会通过一个名为PoseNet的模型来运行视频 , 该模型会估计每一帧中身体和四肢的位置 。 这个简化的视觉信息会被发送给一个模型 , 而该模型能根据使用German Sign Language(德国手语)的视频中的姿势数据进行训练 , 然后它将现场图像跟其认为的手语的样子进行比较 。
本文插图
这个简单的过程已经在预测一个人是否在做手语方面实现了80%的准确率 , 另外再加上一些额外优化的话 , 准确率则达到了91.5% 。
为了不向现有电话添加新的“某人正在做手语”的信号 , 该系统采用了一个巧妙的小技巧 。 其使用一个虚拟音源来产生20kHz的音调 , 这虽然超出了人类的听觉范围但却能被计算机音频系统注意到 。 这个信号在人们做手语的时候就会产生从而使语音检测算法认为他们是在大声说话 。
【cnBeta|谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”】目前 , 该系统还只是一个演示 。
推荐阅读
- 量子技术|清华教授攻克难题,量子技术取得突破,美国谷歌被弯道超车
- 谷歌|谷歌开源AI模型“搜索引擎”,NLP、CV都能用
- 法耶·沙尔波|谷歌“街景”伦敦上空均拍到成队UFO
- 谷歌|27岁“一战成名”,超越谷歌、微软,他让中国比美国快100亿倍
- 谷歌|谷歌Stadia将以网页应用形式登陆iOS 以规避App Store的限制
- |iOS用户终于等来云游戏 英伟达“抢先登陆” 谷歌Stadia“过几周就来”
- 谷歌|明年起,Chrome扩展将显示所收集的用户数据和使用情况
- |谷歌开放AI怪兽制造机,快来打造你的数码宝贝世界吧
- OriginOS|vivo发布全新系统OriginOS:支持超级卡包功能,支付便捷
- cnBeta|[图]谷歌完成Chimera Painter开发工作:使用GAN来生成噩梦生物的网页工具
