文章插图
本文由微信公众号苏宁金融研究院(ID:SIF-2015)原创,作者为苏宁金融研究院金融科技研究中心主任助理王元 。
2020年是不寻常的一年,全球的健康、贸易、经济、文化、政治和科技领域,无不发生着深刻的变化 。笔者所在的科技领域,也恰逢现代人工智能(简称AI)发展10周年 。前10年,人工智能技术得到了长足的发展,但也留下许多问题有待解决 。那么,未来AI技术将会如何发展呢?本文将结合学术界、工业界的研究成果,以及笔者个人研究见解,从算力、数据、算法、工程化4个维度,与读者一起探索和展望AI发展的未来 。
一
数据
我们首先分析数据的发展趋势 。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展 。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据 。
首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快 。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB 。
文章插图
其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示 。
文章插图
文章插图
以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长 。站在AI技术的角度,可以预期数据量的持续供给是有保证的 。
另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据 。标注数据可分为自动标注、半自动标注、人工标注3个类别 。
那么,标注数据未来的趋势会是怎样的?
我们可从标注数据工具市场的趋势窥探一二,如图4所示 。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75% 。
文章插图
通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖 。
二
算力
我们再来看看算力 。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑 。
算力指的是实现AI系统所需要的硬件计算能力 。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展 。
文章插图
不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律 。
文章插图
当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况 。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示 。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题 。
文章插图
另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额 。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备 。
推荐阅读
- .NET CORE HttpClient使用
- 浅谈Linux 中的进程栈、线程栈、内核栈、中断栈
- |职场装越来越多样化!西装、马甲、衬衫都可随意搭,优雅又知性
- C#中子类对基类方法的继承、重写和隐藏
- 图片从RGB模式转换成CMYK模式,让颜色依然鲜艳不减,应该怎么做
- 从数据库到可视化性能,5个大数据分析工具测评,python只排倒数
- Docker初学者入门--安装笔记
- rtsp协议之dss搭建rtsp服务器
- 太极拳如何练习 学太极拳从零开始
- 手把手带你nginx搭建基于rtmp或者http的flv、mp4流媒体服务器