智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验


9月18日 , 天猫精灵在云栖大会上发布了全场景人机交互系统AliGenie5.0 , 将视觉、语音、触觉等多种形态的交互方式融合在一起 , 能更精准地感知物理世界 , 深入理解使用者的意图 , 让人与机器的交流像和朋友一样自然流畅 。 所谓的“多模态交互”是包括人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起 , 这代表着即使屋里只有你和智能音箱/家庭智慧屏的情况下 , 也要扯着嗓子喊完整唤醒词的时代已经成为过去 , 每天与我们在一起的智能设备将越来越像一个“明白人” , 知道什么时候该说话 , 什么时候不该说话 。 聚牛科技目前拿到的天猫精灵CC10电池版家庭智慧屏就是率先搭载AliGenie5.0的设备 , 我们也难忍好奇心 , 好好地体验了一把 。
独立电池加持10英寸超大尺寸屏幕 追剧不要太爽
“简洁”应该说是天猫精灵CC10电池版的代名词 , 在天猫精灵CC10电池版不算十分小巧的包装内 , 除了设备主体 , 只有电源适配器和说明书两样东西 , 即使是不常使用智能设备的小白用户 , 也能在一瞬间明白它该如何进行连接 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图
【智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验】

正面这块10英寸要比8英寸的屏幕大上58% , 窄边框的设计也让其拥有了更高的屏占比 。 这块1280*800分辨率的IPS大屏还支持Miravision芯片级护眼 , 不用来追剧 , 都有点屈才了 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

“电池版”顾名思义 , 确实配有5000mAh超大电芯 , 除了在停电时会发挥功效 , 我们更可以不受限制地将它拿到其他场景中使用 , 甚至包括室外 。 断开电源时 , 我们可以通过提示知道其所剩余的大概续航时长 , 动辄12小时以上的续航时间肯定是够大家使用的 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

屏幕上方的500万像素前置摄像头采取了下摆7°移轴设计 , 主要是考虑到了屏幕观影最佳角度、视频通话与监控的角度 。 这颗前置摄像头还有一个好听的名字叫做“点读智慧眼” , 可以实现儿童实体绘本的同步朗读功能 , 比单纯的讲故事要更具有互动性 。 通过“点读智慧眼” , 天猫精灵CC10电池版的专业儿童陪读模式可以在孩子学习时 , 监测到孩子坐姿不端或打瞌睡 , 并发出提醒 , 直到改正 , 帮助孩子养成更好的学习习惯 。
多模态交互+更精准的语音识别 谁不喜欢跟“明白人”聊天呢?
人类社会最忌讳的就是在不该说话的时候说话 , 上课时接下茬的同学、看电影时聊天的情侣 , 往往给人留下的印象都不咋好 。 其实智能音箱也曾是这样一个讨人厌的存在 , 不论大家有没有使用过类似的产品 , 对于一些智能音箱翻车的事件应该还是都有些耳闻的 , 客厅里和亲戚欢聚一堂时的乱搭茬、夜半熟睡时传来的诡异笑声 , 网上随便一搜索 , 总是有很多这些不合时宜的例子的 。 为了避免上述的问题 , 厂商们往往将唤醒词设置在4个音节以上 , 尽量避免误触发的情况 。 但这也有点反人类 , 毕竟大家平时叫别人名字为了便利都会起个顺嘴的外号 , 更不要说唤醒智能设备了 。 想像一下 , 即使屋里只有你和智能音箱/家庭智慧屏的情况下 , 你也要完整地、声音洪亮地叫出四个字以上的唤醒 , 不仅仅有点麻烦 , 还有点尴尬 。 这种尴尬类似于 , 我已经看着你说话了 , 屋里又没别人 , 你怎么还老得让我叫你 , 你才知道呢?

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

AliGenie5.0其实就是在解决这个问题 , 天猫精灵的技术专家通过融合视觉识别能力和语音识别能力 , 把视觉和语音信息同时输入到机器“大脑” , 进而做出综合性决策 , 让机器“能听、会看” 。 也就是说天猫精灵通过识别我们的唇动、人脸朝向等视觉信息判断我们是否需要它的响应 , 当我们对着它说话的时候 , 也就不用一定去念唤醒词了 。 综合这些因素之后 , 即使笔者对着天猫精灵吃饭 , 而身后有人说话 , 天猫精灵也会因为声音和图像信息匹配不上 , 而拒绝唤醒 , 有效地降低误触率 。 同时 , 当距离较远的时候 , 机器看不清你的嘴巴是否在动 , 天猫精灵还可以支持“挥手唤醒” 。 有了多模态识别的能力 , 天猫精灵就能把人和声音“对号入座” , 经过一段时间训练 , 它可以真正认识和分辨出每一位家庭成员 , 从而根据个人习惯和喜好成为更懂我们的助手 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

在语音识别技术方面 , 天猫精灵采用了最先进的LAS端到端和CLDNN+CTC的融合自动语音识别技术(ASR)架构 , 充分利用了LAS和CTC模型的优点 , 可以更好地发挥大数据的优势 , 精简训练音箱理解人的词汇、语义的过程 。 同时 , LAS和CTC模型不仅使得天猫精灵的语音识别准确度保持业内领先 , 也同时使其ASR系统有很强的泛化能力 , 能更广泛地应用在其他领域 , 赋能AIoT合作伙伴 。
此外 , 天猫精灵还采用动态判决策略等技术手段 , 使得声纹识别技术识别率高达99% , 不但可以实现“闻声识人”还成为了全球首个达到商用级声纹认证支付的智能音箱 。
独创跑道型喇叭结构 更加诡异的“小白船”
天猫精灵2019年就获得了国际专业机构AES听音认证 ,AES全称国际音频工程学会(Audio Engineering Society) , 是全球专注于音频技术的专业协会 。 据了解 , 天猫精灵仅声学团队 , 就引进了通过飞利浦和哈曼认证的5位“金耳朵” , 在硬件方面天猫精灵也是国内首个建立了专业声学消音室、混响室的互联网公司 。 而我们今天的主角天猫精灵CC10电池版家庭智慧屏独创跑道型喇叭结构 , 也在有限的出音高度下设计了面积更大的振膜, 振膜面积相对常规圆形喇叭振膜有效面积提升80% , 带来了更大的声音转换效率 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

实测中 , 我们观看了几集今年大火的《隐秘的角落》 , 如果大家也看过的话 , 应该知道这个电视剧不但剧情给力、演员演技到位 , 配乐也是相当的地道 。 从网友们“能不能来点阳间的音乐”、“阴乐一响 , 爹妈白养”的弹幕你就可以知道童声唱出的《小白船》威力有多大了 。 天猫精灵CC10电池版带来的震撼感 , 让参与测试的同事也颇有些浑身发冷的感觉 , 让秋天到来的脚步都仿佛加快了许多 。
囊括你的教育与娱乐 更多内容自然更多欢笑
有了出色的屏幕和出色的音质 , 没有好内容自然就不太地道了 。 在音频方面 , 在新闻、电台、评书、笑话等品类中 , 笔者都找到了不少优质内容 。 视频方面 , 我们常用的优酷、芒果TV、B站、快手、抖音、斗鱼等等 , 长视频、短视频倒是都有囊括 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

最绝的当然是独家接入了淘宝直播 , 蹲守直播等着热门商品上架的时候也不会再占用自己的手机屏幕 , 剁起手来十分方便 。 这里顺便说一下 , 天猫精灵不仅仅可以帮你打开薇娅的直播间 , 直接进行语音购物支付也是可以的 。 通过淘宝账号及支付宝账号 , 以及上述提到过的声纹识别便可以轻松并且安全地剁手了 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

由于特殊原因 , “网课”在今年受到了不同往年的重视 。 早在3月19日 , 阿里巴巴宣布联合人民教育出版社共同推出新型“网课” 。 这套“数字课堂”学习系统基于人教版小学1-6年级的正版教材开发了多媒体教学资源 , 学生可以跟着AI进行课文朗读、作业辅导 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

在对天猫精灵CC10电池版家庭智慧屏体验中 , 我们发现其确实接入了比较丰富的教育内容资源 , 比如3100+独家人教版全课程和学而思海量免费课程 。 天猫精灵CC10电池版还支持童脸识别进入儿童模式 , 拥有距离提醒、防沉迷、有害光过滤等功能 , 并且可以实现基于仿声术的“精灵伴读” , 让家长可以通过录制自己声音、自动定制AI合成声音方式 , 给孩子讲故事 , 纵使父母真的没时间 , 也可以花些心思给孩子更多的温馨陪伴 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

繁荣的AIoT生态 打造智能大管家
碎片化的AIoT设备其实并不能让用户感到智能所带来的优越体验 , 反而割裂的生态总是使用户不堪其扰 。 在打破这种藩篱的道路上 , 天猫精灵也是先驱之一 。 天猫精灵一直致力于实现跨平台、跨终端系统的统一 , 支持微内核操作系统 , 为碎片化的AIoT智能场景设备 , 提供了弹性计算、海量应用空间的基础系统 , 让智能终端的协同更流畅、更自然和更人性化 。

智能音箱|多模态交互能让我们告别唤醒词?天猫精灵CC10电池版体验
本文插图

目前天猫精灵可连接80多个品类、800余平台、1100+品牌、4900多个型号 , 超过2.72亿设备 , 可以让使用者放心地挑选和配置完整的智能家居系统 。 而我们能想到的 , 比如摔倒侦测、移动侦测、监测回看等等贴近家庭的功能 , 都可以通过天猫精灵来实现 。
结语
天猫精灵CC10电池版家庭智慧屏在更大屏幕和更出色音质带来的沉浸感的基础上 , 还拥有着全面的教育内容、音乐与视频资源 。 在AIoT智能场景中 , 其更是拥有海量“队友” , 可以提供更加完善的智能家居体验 。 更为独特的是 , 它可以实现观看淘宝直播、语音购买等其他智能音箱、智慧屏所无法做到的便捷且安全的功能 。 当然最最重要的是 , 作为全场景人机交流系统AliGenie5.0的首发设备 , 其通过多模态交互更加人性化的、更加懂事了 , 在同品类还只能被唤醒词唤醒的当下 , 已经可以知道你究竟是不是在跟它说话 , 此时此刻是不是需要它的回应 。 说实话 , 这在人类社会也是非常考验情商的问题 , 这一点笔者的很多同事都做不到......
精彩资讯报道 , 专业视频评测 , 尽在聚牛科技


    推荐阅读