|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛


“过去几千年 , 大多数人只能参与历史 , 记录是少数人的权力 。 而随着技术的提升 , 每个人不仅在参与历史 , 也在记录着历史 。 ”
这是1826年 , 法国的发明家尼尔普斯 , 在他的工作室拍下的《窗外的风景》 , 这是人类历史上第一张永久性流传下来的照片 。 所谓永久性 , 就是它记录在了一张相纸上 , 这是第一张照片 。
从200年后的视角来看 , 这个图片缺少了太多的信息——
这个图片很不清楚 , 我们不知道它拍了什么;
图片没有颜色 , 只有黑与白;
图片缺乏动态 , 因为它是一个静态的东西 。
在这之后的100年 , 发明家们不断地努力去追赶我们人类的眼睛 , 感知世界的维度 。
1888年 , 爱迪生发明了电影机 。 原理很简单 , 就是把一系列的胶片快速地转起来 , 我们就可以看到一个动态的画面 , 这样我们可以记录时间 。
1894年 , 彩色的胶片出现 , 我们终于可以把世界的颜色记录下来 。
1922年我们有了第一部3D的电影 , 叫做《The Power of Love》 , 这个时间点比大多数人想象的要早很多 。
其原理与现在去电影院看的3D电影有点不一样 , 当时是用两个摄影机 , 一个是拍红色 , 一个是拍绿色 , 大家看的时候有一副眼镜 , 分别是红绿看不同的画面 , 这样画面的叠加就有了立体的效果 。
当时为了达到3D效果 , 牺牲的是画面的色彩丰富程度 。
|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图

视觉技术的发展
这是第一个100年 , 我们追赶着人类所感知到的世界所有的维度 。 而在过去20年 , 绝大多数人经历了从胶片到数码时代的变革 , 这是一个颠覆性的变化 。
胶片时代 , 我们拍照的时候需要在意胶卷还有多少张、冲洗的时间是多久、相册的厚度是多少 , 因为每张照片都占据空间 。
在数码时代 , 我们拍照的时候 , 可以立刻看到自己拍的图像 , 在瞬间就可以复制 , 分享给其他人 , 而且成本几乎可以忽略不计 。
这奠定了移动互联网社交网络的基础 , 我们可以无限制地去创造和分享看到的信息 , 只需要关注自己想记录下的画面 , 然后把它分享出去 , 剩下的由数码和技术来解决 。
|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图

视觉技术的进一步升级 , 让每个人、每个消费者的手机上 , 口袋里都有一个相机 , 给社会带来了非常本质的变化 。
仅仅在十几年前 , 在我上大学的时候 , 当时媒体的定义是少数的机构 , 它可以是电视台 , 可以是报纸 , 可以是杂志 , 但不是我们每一个人 。
现在当我们把手机 , 把摄像头连接上互联网以后 , 每一个人都可以成为事件 , 或者环境的记录者和分享者 。 我们的所见所闻可以立刻发到网上 , 所有人都可以看到 。 甚至有一些大V在做直播的时候 , 可以一瞬间 , 同时与几百万、上千万的人互动 , 这是视觉技术升级带来的力量 , 它甚至改变了历史的发展和记录的形式 。
在过去几千年甚至一两万年人类历史的演进过程中 , 大众是历史的参与者 , 只有少数人才有记录历史的权利 。 而在今天 , 此时此刻 , 我们每一个人不仅在参与历史 , 而且可以记录历史 。
过去我们拍的图片、视频 , 最终的“受众”是人 , 需要人自己处理 。 但是在过去的十年 , AI技术快速发展 , 大量数据的“受众”已经不再是人 , 是机器 , 是算法 。
机器已经开始替代人去做很多重复性的劳动 , 比如海底捞等餐厅 , 送餐机器人在餐厅里走来走去 , 或者在酒店、机场 , 已经有机器人给我们提供服务 , 而每个机器人每个月都可以为使用者节省几千元的劳动力的成本 。
还有交通监控 , 现在24小时交通监控的背后是算法在不断地在跑 , 一旦有人违章 , 路口的屏幕就会显示某车牌号 , 出现了超速或者其他违规情况 。 这些技术代替了大量的生产力 , 帮我们创造了更多新的价值 。
那么 , 这与视觉技术有何关系呢?
过去的十年 , 机器视觉主要基于2D图像 。 它只有平面 , 但世界是三维的 , 这就意味着我们需要用低维度的画面描述更高维度的信息 , 所以现在是用大量的数据解决更小的问题 。
比如 , 桌上有一个杯子 , 如果要用2D图像去描述它 , 我们需要在不同的距离 , 不同的角度 , 拍很多图片 , 才能组合在一起 , 再通过一系列算法进行重建 。
在学术圈用的比较多的数据库是ImageNet , 里面有1000多万张图片 , 但只有一万多个 , 接近两万个类别 。 我们训练一个基础识别算法 , 需要上千张的图片 , 这仅仅是满足学术的要求 。
对于实际应用的产品 , 比如大量使用的监控、人脸识别等 , 我们需要几百万、几千万 , 甚至上亿张图片才能建立起一个真正好用的模型 。 这意味着 , 想要用AI和视觉做好结合 , 我们需要大量的数据 。 而数据的采集 , 数据的标注都是非常大的成本 。
但3D图像可以非常简单的通过几张图就能描绘清楚一个物体 , 通过三个视角就能非常清楚的去表征一个物体的空间信息 , 我们就可以用一个非常小的数据来解决更大的问题 。
与20年前相比 , 当下的3D相机成本从过去的几万、几十万 , 下降到了几十块钱 , 为什么?主要得益于三方面的技术突破 。
第一是激光技术 。
过去的3D相机主要是基于双目或多目 , 比如几个摄像头同时去拍摄 , 有一个立体的视角把3D的环境重建出来 。
现在 , 更好、更稳定的3D技术用的是激光 , 我们可以发射一个有图案分布的激光 , 然后再拍摄 , 通过立体分布 , 或者通过光脉冲来回的时间 , 可以得到我们想要的空间立体的信息 。
但在20年前 , 激光器非常贵 , 整个光学系统也非常贵 。 好的镜头是一个非常大 , 非常重 , 并且非常昂贵的东西 , 激光器也是 。 2017年iPhoneX量产了第一代的3D结构光摄像头 , 在这一年中 , 仅仅这一个场景 , 人类制造了超过400亿个激光器 。
400亿是什么概念?它超过了过去人类历史上所有的年份生产的激光器的总和 。 而在这400亿个激光器里面 , 每个激光器的价格才不到一美分 。
第二个技术突破是光学和集成电路、半导体技术的结合 。
通过半导体制程的优化 , 从几微米到现在7纳米、5纳米 , 把大量的电路晶体管集成在了一个非常小的芯片上 。 而这个工艺的演进也同时帮助了光学发展 , 我们可以把很多的光学功能 , 诸如透镜等衍射、光栅的功能集成在一个很小的器件上 。
过去的3D相机是一个设备 , 现在的3D相机就是一个非常小的模组 , 可以嵌入到手机里 。 基于这两种技术的快速迭代发展 , 才能把相机变得非常小 , 放到我们的口袋里 , 而且变得非常便宜 。
第三个就是AI技术的发展 。 我们有了3D相机 , 就需要有一个计算的能力去理解我们看到的场景 。 AI过去十年的发展做了非常好的铺垫 。
当我们口袋里有一个3D相机以后 , 我们可以做很多有意思的事情 。 大家用的iPhone或华为手机 , 前面都有3D相机 , 它的核心的作用是理解用户 , 帮助设备感知用户是谁 。
|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图

比如FaceID的解锁、支付 , 使用3D技术可以更安全、更高精度的去识别这个用户是谁 。
更进一步 , 可以去观察人的微表情——你的眉毛是不是往上耸了 , 你的嘴角是不是往上翘了 , 那是说明你高兴了;你的嘴角往下了 , 说明你不高兴了 。 这些细节 , 可以与Animoji等应用结合起来与人做交互 , 这是前置摄像头 。
而手机的背后 , 现在已经有ToF的相机在华为上广泛使用 。 iPad , 以及未来即将发布的iPhone上也会有3D相机 , 可以用来帮助设备去和空间做交互 。 它可以看到五米甚至十米远 , 可以通过视觉帮助定位手机 。
比如 , 将虚拟世界的画面与真实世界的画面融合 , 就意味着是AR 。 也可以用来做定位 , 做SLAM等很多有意思的应用 。
更进一步 , 几年以后 , 当我们每个人手里都有一个3D相机的时候 , 每个人都在不断的拍摄和记录真实世界的每一个角落 。 这就好像我们玩游戏开地图一样 , 这个世界本来全都黑暗的 , 每个人拍个照片就进入了一个角落 , 而把这些角落拼接在一起 , 我们就将整个真实世界数字化了 。
在这之后 , 我们可以去体验一个“虚拟的真实世界” , 电影《头号玩家》的那些体验 , 其实在不远的将来可能就会成为现实 。
3D视觉与2D视觉的本质区别在于什么?
举一个例子 , 现在去银行里开户 , 我们不需要去柜台 , 一个自动柜员机会帮助你解决所有流程 。 首先需要解决的就是你到底是不是“这个人” , 2D的场景可能用一张照片 , 然后用照片对着摄像头就很容易攻破这个系统 。
如果要判断这个是不是“真人” , 2D的解决方案是让用户摇头、点头、眨眼等等 。 在进行健康码验证的时候 , 屏幕闪烁不同的颜色 , 有些需要你报一串数字等等 。 这是一个非常复杂的、用户体验不佳的 , 并且很长的过程 。 它需要几秒 , 甚至几十秒的时间 , 把这些的数据传到云端 , 用一个很复杂的模型来去判断 。
|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图

银行智慧柜员机
现在 , 通过端上的3D相机可以直接拍到人的立体信息 , 可以拍到很多立体细节 , 这些细节可以帮助我们在端上用一个几美金的芯片 , 跑一个非常轻的算法就能实现这样的功能 。 也就是说 , 我们可以把很多复杂的 , 需要云端处理的问题 , 搬到了一个摄像头里面 。
可能有人会问 , 加了3D相机 , 是不是增加了额外的成本?其实从“云”到“端”上的转变、迁移 , 解决了两个非常关键的问题——
在IoT的时代 , 设备会越来越多 。 目前 , 世界上正在运行的IoT设备有数十亿个 , 在五到十年之内会增长到数百亿个 , 我们预计50年以后会有400亿以上的IoT设备 。
当这些IoT设备不断采集图像、视频时 , 按照现在的架构 , 把所有的任务交给云端 , 面临的第一个问题就是带宽够不够?第二个问题就是电够不够?
由于5G的出现可能带宽的问题会得到解决 , 但是如果不改变架构 , 每年仅通讯和云端这部分计算IoT , 就要用掉未来全世界20%的电力 , 同时会产生环境等额外一系列问题 。
所以我们需要把这个问题简化 , 不能把所有问题都扔到云端 。 我们有更好的带宽 , 更好的算力 , 但这不代表我们可以滥用这些东西 。
我们需要在端上做好感知 , 用更高密度的数据进行理解 。 更重要的问题是——我们可以通过技术解决功能 , 可以让生活变得更便捷 。
但是 , 人能不能接受这种方式?这不一定 , 我们希望有机器人一类更便捷的方式服务我们 , 但是并不希望有机器的摄像头 , 一天到晚盯着自己 , 个人的隐私安全是一件非常重要的事情 。
如果这个问题不解决 , 必然会导致人们不用这个技术 , 那么它就毫无价值 。 所以我们必须把图像数据封装在端上 , 当数据采集完成后 , 在端上进行算法处理 , 通过加密再发出去 。
如果黑客攻破这个数据的话 , 这将是一个毫无意义的向量 , 从物理上不再需要担心数据安全的问题 。 这也是技术服务于人 , 服务于社会的最根本的前提 。
我们讲了那么多加密、信息安全技术 , 现在调转一下画风 , 讲一个猪的故事 。
中国是全世界吃猪肉最多的国家 , 一年要吃掉约7亿头猪 。 猪的最优出栏体重是120公斤 , 超过120公斤 , 再给它吃饲料 , 长肉就比较少了 , 不划算 。
如果有一个技术 , 能够帮助畜牧行业非常准确的控制每只猪都在120公斤出栏 , 那就可以使每头猪增加50元的利润 , 7亿头就是350亿人民币的利润 。
但我们并不能频繁的把猪赶到秤上称一称 , 因为猪是一个非常敏感的动物 , 如果强迫它做什么事情 , 它会不高兴 , 不高兴它就不吃饲料 , 就会导致它不长肉 , 所以我们需要以非接触的方式测量猪的体重 。
这时 , 我们就可以使用3D相机去测量猪的三围 , 比如腰围、颈围、臀围 , 以及四肢的维度 , 然后结合合作伙伴大数据与猪的品种进行分析 , 可以非常准确的预测猪的体重 。 简单的技术升级 , 就可以创造非常多的价值 。
|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图

为什么要和大家分享这个故事?其实是想告诉大家 , 3D视觉与2D视觉有一个非常大的差异 。 2D视觉的大量数据最初的受众是人 , 我们把图片、视频拍下来 , 由人去分析 。
因为人的学习速度非常快 , 只要摄像头技术也成熟了 , 那么 , 视觉「技术的成熟」与「应用的成熟」几乎是同时发生 。
但是3D技术不一样 , 3D技术对应的是算法和场景 。 2016年 , 相关行业开始尝试做刷脸支付 , 而真正大量普及是在2019年 。 花了三年时间才把整个链条打通 , 让整个行业开始普遍应用3D技术 。 也就是说 , 3D相机的成熟 , 需要与行业磨合一段时间 , 产生一个成熟的方案 , 然后再落地 。
这也是为什么现在3D技术发展 , 是一个一个行业在发生的 , 从关键任务慢慢发展到非关键任务 , 从更有钱的场景 , 比如金融、安防、工业等场景 , 发展到更多的民用场景 。
随着场景不断落地 , 3D相机成本不断降低 , 技术不断成熟 , 应用算法不断的完善 , 3D视觉的发展速度也会越来越快 。 最近几年 , 每年有5-10个场景出现 , 可能三年以后 , 每年有50-100个场景出现 , 到最后 , 所有机器视觉的场景都会是3D的 。
那么 , 大家有没有想过 , 为什么摄像头是彩色的?
——因为世界就是彩色的 。
当我面对很多合作伙伴 , 面对很多投资人的时候 , 每次都会提到同一个问题——我为什么需要3D?现在2D用得不是很好吗?为什么我要额外花钱去买3D相机?
如果我们从一个更远的维度去看 , 这个世界本来就是3D的 , 我们为什么要退回到一个平面上?
原来 , 之所以用2D的平面 , 是因为我们没有能力去采集3D数据 , 而现在3D技术已经成熟 , 我们用几十块钱就能做一个很好的3D相机 , 那么 , 未来所有的摄像头自然而然也都会是3D的 。
有了3D以后 , 我们可以有更直接的交互 。 开头提到的第一部3D电影的名字叫《The Power of Love》——爱的力量 , 如果要感受爱的力量 , 我希望看到的人是立体的、栩栩如生地站在我的面前 。
我们也希望通过3D技术能够让感知变得更智能 , 在端上、在摄像头上就实现分析和理解 。 这就像人一样 , 我们不会去「思考」自己到底看到了什么 , 摸到了什么 , 五官的感知已经在我们的潜意识里都解决了 。
而思维是在决策维度才用到的 , 当获取这些信息以后 , 如何去思考、分析、决策 。
在万物互联的IoT时代 , 我们需要把更低成本、更高效、更安全的架构实现出来 。 我们需要在端上实现感知 , 在云端实现分析与判断 。
(本文未经造就授权 , 禁止转载 。 )
编辑 | 王锐
【|从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛】视频 | Don


    推荐阅读