智算中心成为新基建的基本条件与智慧时代动力源

计算力就是生产力 , 智慧计算改造升级了生产力三要素 , 最终驱动了人类社会的转型升级 。 智慧计算将计算力驱动的信息化设备变成了生产工具 , 使生产力得到前所未有的解放 。 智算中心融合多元算力 , 为社会生产和生活提供源源不断的智慧服务 。 智算中心已成为经济新动能、社会新基建 。
作者:王恩东中国工程院院士
本文发表于《中国工业和信息化》杂志2020年4月刊总第22期
新一代信息技术加速了社会智慧化进程
新一代信息技术在抗疫过程中发挥了巨大的作用 , 使我们生活和工作的许多方面从线下搬到了线上 。 从早上醒来第一眼去查看疫情数据、查看同乘同航是否有确诊 , 到网课辅导、在线问诊、生鲜快递;从远程打卡、线上招聘、线上会议到文档协同、工作提交;从线下到线上的迁移 , 加速了社会的智慧进化 , 主要表现为以下三个方面:
首先是加速了经济活动的线上化变革 。 企业选择线上办公 , 导致各种在线办公平台用户规模指数级增长 , 其中钉钉平台超过1000万家企业、2亿人协同办公;腾讯会议系统上线仅两月 , 日活跃用户就超过千万 。 学校选择线上教学 , 其中钉钉平台超过14万所学校、1.2亿学生在线上课;腾讯课堂有超过140万老师 , 每天有2000万中小学生在腾讯课堂上学习 。 工信部发布的数据显示 , 2020年春节期间 , 移动互联网流量270万TB , 同比增长36% 。 经济活动的线上化变革 , 让大家在这个过程中体验到了信息科技的价值和效率 。
第二个明显的变化是社会服务和社会治理更加高效智能 。 疫情期间 , 运营商推出了“通信大数据行程卡” , 可以记录显示手机用户14天内到访的地区 。 截至目前 , 累计查询量已经超过了4.5亿;中国铁路提供了确诊病例密接者查询服务 。 这些服务为社会防疫防控提供了有力支持 。
腾讯、阿里、浪潮提供的健康码在山东、北京、广东等省市快速上线 , 覆盖了绝大部分出行人口 。 可以预想 , 健康码必将成为未来传染病防控的必备手段 。
最后是在工业生产方面 。 2019年中国工业机器人装机量占全球的36% , 用于建设数字化车间和智能工厂 , 成为全球最大的智能制造市场 , 预计2020年中国智能制造市场规模将超过2200亿元 , 智能制造升级将进一步提速 。
典型例子就是浪潮智能工厂 。 整个生产制造过程弹性、透明、可追溯 , 智能技术贯穿了生产制造的全周期 , 实现相同的产能 , 用工数量下降50% , 生产效率提高3倍 , 订单交付周期从18天缩短至5~7天 。
利用智能工厂 , 浪潮保证了在疫情期间快速复工复产 。 2月1日晚 , 浪潮接到用于疫情防控的紧急订单 。 2日一早 , 浪潮智能工厂复工 , 迅速投入生产 , 按客户要求 , 及时交付到抗疫一线 。 如果是传统工厂 , 要在一天之内复工生产 , 几乎是不可能的 。 仅仅一天内也不可能让几百名工人回到工作岗位 , 更何况是在严格管控的疫情期间 。
看得见的是各种智慧服务 , 看不见的是新型的基础设施 。 支撑智慧化转型的正是以云计算、大数据、人工智能为核心的智慧计算 。
智慧时代需要新型基础设施
疫情期间 , 腾讯和阿里每天都在扩充云计算资源 , 用于支撑视频会议、在线办公等业务 。 百度地图则利用其每天响应位置服务请求千亿次所产生的大数据 , 通过数据定向、分析等途径助力流行病学调查 。 而浪潮的智能工厂里各种智能设备以及背后的路径规划、图像识别等算法 , 也是高效复工复产的必要条件 。
我们见证了智慧计算是如何在这场战疫中发挥巨大作用的 。 3月4日 , 中央决定对人工智能、大数据中心等新基建提速 , 这也是在为智慧计算的发展提速 。 我们讲过 , 计算力就是生产力 , 智慧计算改造升级了生产力三要素 , 最终驱动了人类社会的转型升级 。 智慧计算将劳动者由人变成了人与人工智能的复合体 , 劳动者可以呈现指数增长;将数据变成了一种新的生产资料 , 从有形到无形 , 生生不息 , 越用越多;将计算力驱动的信息化设备变成了生产工具 , 也是指数增长 , 生产力得到了前所未有的解放 。
伴随生产力的升级 , 社会基础设施也在产生变化 。 农业时代的基础设施比较简单 , 就是水利、交通等;工业时代 , 则是我们熟悉的“铁公机”、电网等;那么 , 智慧时代必将需要新型的基础设施 。
我们可以和电力基础设施做个类比 。 电力基础设施提供电力服务 , 其核心是生产电力的地方 , 就是发电厂 , 像三峡电站、大亚湾核电站;智慧时代的新型基础设施 , 要能够对外提供各种算力服务、数据服务和AI服务等 , 其核心就是计算力的生产中心 。
计算从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算 。 每种计算都有相应的计算力中心去支撑 。 科学计算的算力中心是超算中心 。 承载当前企业应用、政府应用和个人应用的算力中心是数量众多的各类数据中心 。 当前 , 人工智能计算需求正呈指数级增长 , 未来将占据80%以上的计算需求 , 承载这种需求的就是AI算力中心 , 即智算中心 。
智算中心成为新基建的三个基本条件
工业时代的电力生产需要电厂 , 计算力也需要强大的生产供给中心 , 它就是智算中心 。 智算中心融合多元算力 , 以开源架构计算系统为平台 , 以数据为生产资料 , 以强大计算力驱动人工智能 , 为社会生产和生活提供源源不断的智慧服务 。
智算中心已成为经济新动能 , 社会新基建 。
智算中心要成为新基建 , 必须满足以下三个基本条件:开放标准、集约高效和普适普惠 。
开放标准要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;
集约高效要求智算中心的建设要有超大规模 , 要采用领先的技术 , 保证自身的先进性;
普适普惠则要求智算中心发挥基础设施的社会价值 , 服务大众 。
【智算中心成为新基建的基本条件与智慧时代动力源】下面 , 具体分析这三个条件 。
首先是开放标准 。 通过简单回顾开源开放的历史 , 可以看到开放的边界越来越广阔 。
从最初的操作系统、数据库、中间件的开源 , 到云和大数据、算法框架等基础软件的开源 , 再到以以RISC-V为代表的芯片的开放 , 以OCP、ODCC为代表的计算硬件的开放 。 由软件到硬件 , 从芯片到数据中心 , 开放变革了IT产业的生产模式和应用服务模式 , 持续推动着信息技术的发展 , 促进了整个IT产业的生态繁荣 。
开源开放的IT才是健康的IT , 开源开放的软硬件也才是智算中心建设所需要的 。 浪潮作为三大开放计算标准组织的发起会员和白金会员、OpenStack开源社区的黄金会员 , 一直是开源计算生态发展的推动者 , 一直在积极地将开源开放的建设理念和标准向全球推广 , 一直在大力推进开放计算生态发展 , 所有的顶级互联网数据中心已经在大规模的落地开放计算服务器 。 同时通信、金融、能源等关键领域的TOP企业 , 也纷纷加入了开源组织 , 并在数据中心建设当中加以实践 , 像OpenStack、K8S、Hadoop、TensorFlow等面向云计算、大数据、人工智能等场景的开源技术软件 , 已经成为了智算中心软件平台的实施标准 , 超过80%的企业都在其数据中心应用了开源软件技术 。
开放计算带来的好处是显而易见的 , 以浪潮的某个大型数据中心客户为例 , 使用开放计算架构 , 能够节约电力30% , 系统故障率降低90% , 投资收益提高33% , 并且运营效率提升三倍以上 , 交付速度可以达到每天一万台 。 模块化、标准化推动了智算中心高质量发展 。
大家知道 , 基础设施必然要以规模效应来实现降本增效 , 要能够快速地建设 。 这就要求智算中心的建设 , 就像现在盖房子一样 , 通过采用预生产的标准化、模块化的硬件来实现装配式的建设 。 从标准化的节点单元到标准化的整机柜 , 到标准化的微模块数据中心 , 再到整个智算中心 , 像热播节目一样 , 层层组装 , 快速建设 。 作为基础设施 , 要求不同的智算中心要能够互联互通 , 包括管理上的互操作 , 统一的调度、分发、监控、运维;业务上的互联接 , 包括网络打通、业务迁移等;数据上的互流通 , 实现容灾、数据共享等 。
二是基础设施的超大规模要求智算中心应该是集约高效的 。 首先智算中心整体设计理念先进 , 技术上说融合架构代表着数据中心体系结构的未来发展方向 。 融合架构从1.0到2.0 , 已经实现了存储资源和异步计算资源的弹性组合 。 现在的融合架构正处于3.0阶段 , 也就是通过连接池化和重构技术 , 实现不同的计算资源的协同能力 。 通过软件定义来实现业务自动感知和资源自动重复 , 使计算的性能和效率大幅度提升 。 在硬件层面 , 通过硬件重构来实现资源置换 。 CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合 , 利用全互联NVSwitch、CXL、OpenCAPI等新型超高速内外部互连技术 , 实现异构计算芯片的融合;CPU之间可以通过池化融合的方式来实现灵活组合 , 可以根据业务场景动态形成1路到多路多种计算单元;异构存储介质 , 如NVMe、SSD、HDD等则通过高速互连形成存储资源池 。
在计算和存储资源池中 , 除了传统的CPU和GPU之外 , 还可以运用更多新型的计算芯片、存储介质和互联技术 , 进一步提升数据中心的处理能力 。
例如 , 谷歌专为人工智能设计的芯片TPU 。 与GPU相比 , TPU采用低精度(8位)计算 , 以降低每步操作使用的晶体管数量 , 是同代CPU或者GPU速度的15~30倍 。 同时 , TPU还可以进行池化 , 实现了TPU之间的高速互联 , 也就是TPUPOD , 并对外提供TPU算力服务 。
存储方面 , 非易失内存DCPMM , 既可以作为高速硬盘使用 , 也可以作为标准的内存使用 。 当作为内存使用时 , 其单条内存容量最大可以到512GB , 使得推理作业密度提升一倍 , 每单位作业成本下降近50% 。
互连方面 , 异构芯片高速互连的技术CXL、openCAPI等 , 实现了CPU和设备、设备和设备之间的内存共享 , 构建高效池化的智算中心从理想照进了现实 。
智算中心成为新基建的基本条件与智慧时代动力源
文章图片
软件层面则通过软件定义 , 在可重构的硬件资源池基础上 , 通过灵活的组织 , 将不同的资源池组成专业的服务器、存储、网络系统 , 并实现资源的高效管理和调度以及数据在池化资源的灵动流转 。 当AI与软件定义结合后 , 赋予了软件定义更高级的含义 。 从业务上 , 实现了基于业务特征感知的智能资源调度 , 让合适的资源在合适的位置去执行合适的任务 , 就像我们说的让合适的人去干合适的事一样 。 从管理上 , 实现了智能化的运维 , 也就是智算中心的无人巡检、故障自愈等 。
软件定义的典型趋势是软硬件协同设计 , 由专用芯片、FPGA处理更多的业务负载 , 由软件进行更智能化的管理和调度 。 例如 , 基于FPGA和NVMe组成资源池 , 以硬件辅助虚拟化的方式为虚拟机实例提供接近硬件性能的计算、存储、网络功能 , 性能损失从传统软件模拟方式的50%降低到1%左右 , 性价比提升25%~50% , 相同条件下可以百倍加速AI作业效率 。
绿色节能则是一个永恒的话题 , 从传统的节点内风冷到机柜级冷板式液冷 , 再到数据中心的浸没式液冷整体设计 , 配合余热回收、相变储能等循环节能技术 , 可以实现PUE接近于1的目标 , 打造高效清洁的绿色智算中心 。
三是普适普惠 。 智算中心作为基础设施 , 要服务大众 , 要提供算力服务 , 数据服务和各种智能服务 , 在支撑智慧城市、智能制造、智能家居以及智能医疗等行业的智慧化转型 。
目前 , 行业用户的智慧化转型 , 仍然面临着巨大的技术鸿沟 。 这个鸿沟既有如何选择最合适的算法模型 , 也有如何从软硬件两个方面对算法做性能优化 , 更有如何面向特定领域的智能算法进行高效敏捷的开发部署等诸多问题 。 要填补这个鸿沟 , 就需要计算中心提供整合的、易用的开放服务平台 。
基于智算中心先进的AI算力基础平台、AI算力调度平台、AI算法模型来打造人工智能开放服务平台 , 汇聚并赋能行业AI应用的开发者 , 加速开发各种各样的行业智慧应用 , 加速行业AI化、加速产业AI化 。 智算中心不管你看得见 , 还是看不见 , 他就在那里源源不断地产生着智慧时代的动力:计算力 。
智算中心是智慧时代的动力源
对智算中心的需求是巨大的 。 浪潮作为全球领先的智慧计算企业 , 将以开放开源为原则 , 在智算中心IT基础设施方面向更深、更广发展 , 形成硬件重构的智算中心算力系统和软件定义的智算中心操作系统 。 浪潮将与各位伙伴一起 , 抓住机会 , 为客户提供智算中心咨询规划、建设交付、应用开发等服务 , 让智算中心更快地推动社会智慧化转型 。
在产品方面 , 浪潮在融合架构技术路线的指引下 , 将持续巩固算力系统、云数智软件平台层面的优势 , 提供人工智能服务器、通用计算服务器、关键计算服务器 , 并面向海量数据和高速互联提供存储和交换机产品 。 此外 , 将技术栈持续往底层延伸 , 面向不同的场景 , 开发定制化的AR芯片、BMC芯片、网络和存储加速芯片等 。 最终形成覆盖芯片、系统、平台和算法的领先产品体系 。
过去几年 , 浪潮服务器取得了高速发展 , 增速居全球第一 , 是全球唯一持续保持高速增长的主流服务器厂商 。 浪潮业务覆盖了全球120多个国家和地区 , 不仅保持了全球前三的位置 , 并且与前两名的占有率差距已大幅度缩小 , 朝着全球第一的目标迈进了一大步 。
在AI服务器方面 , 浪潮已经连续三年在国内市场占有率超过50% , 保持了智慧计算领导者的地位 。
智算中心的两大发展方向是人工智能和开放计算 。
浪潮将高举人工智能计算的大旗 , 全力发展领先的计算力 。
首先是生产算力 。 浪潮将为智算中心建设供给最领先的算力机组 。 浪潮拥有业内最强最全的AI计算产品阵列:浪潮AGX-5是目前全球最高性能的AI计算主机之一;AGX-2是目前单位空间内GPU计算密度最高的服务器;FP5295可支持CPU和GPU间数据同步传输 。 浪潮超大规模AI计算框架LMS , 可实现单GPU超大算力支撑 , 支持70亿参数的NLP智能语言模型训练 , 相比主流Bert模型参数量提升20倍 。
第二是聚合算力 。 在训练方面 , 浪潮优化了TensorFLow框架 , 在全球首次实现在512个GPU卡上90%的扩展效率 , 打破Imagenet训练时间全球最快纪录;在推理方面 , 针对高并发推理集群进行架构优化 , 构建了高性能的NVMe存储池 , 深度优化了软件栈 , 性能提升了3.5倍以上 。
第三是调度算力 。 浪潮AIStation计算资源平台支持AI训练和推理 , 可以提供AI模型开发和部署一站式交付 , 是业界功能最全的AI管理平台 , 赋能更多的创新者 。
最后是释放算力 。 浪潮自动机器学习平台AutoMLSuite , 可自动建模、自动模型压缩、自动超参调整 , 降低AI应用门槛 , 快速落地进化AI 。 同时 , 它还支持本地化和云端部署 , 已被智慧城市、高铁等客户成功应用 。
浪潮将引领开放计算体系 , 打造智算中心基石 , 构建从模式开放到技术开放、从产品开放到服务开放的计算体系 。 模式开放就是以客户场景为核心 , 与合作伙伴一起联合规划、协同设计、敏捷研发、快速交付;技术开放 , 无论是以液冷、循环利用为代表的冷却技术 , 还是以RISC-V、FPGA、CXL、智能网卡等为代表的基础技术 , 浪潮将一直坚持技术领先;产品开放以开放架构和开源为指导 , 基于先进的开放硬件架构 , 模块化、标准化构建MDC , 并引领其发展方向 。 基于先进的开源软件 , 打造标准、高效、敏捷的智算中心基础软件平台和统一管理平台 , 并最终形成开放的云数智一体化服务 。
浪潮多年来一直践行开放计算的理念 , 引领开放计算的标准 , 牵头了服务器全部国标 , 持续定义领先的开放计算产品 , 拥有全球唯一符合三大开放标准的整机柜产品 , 拥有全球架构最全、配置最多、规格最高的开放计算服务器 , 最先开发了开放技术的OAM加速计算模块和OTII边缘计算服务器 , 拥有全球性能领先的存储系统和性能、安全性领先的云海OS 。
智慧社会离不开智慧生态——元脑生态计划
目前 , 行业信息化市场已经步入了产业AI化阶段 , 这将会是一个万亿级的市场 。
在AI产业化过程中 , 浪潮是新兴AI企业的主要合作伙伴和算力提供商 , 已经积累了大量优质的算法框架、模型和数据 , 这些优质的AI技术正是产业AI化过程中行业用户所需要的 , 也是为这些用户服务的传统合作伙伴所欠缺的 。 为了帮助行业用户更好地进行智慧化转型 , 连接传统合作伙伴和新兴AI企业 , 浪潮提出了元脑生态计划 。
元脑由浪潮联合具备AI开发核心能力的左手伙伴和具备行业整体方案交付能力的右手伙伴共同组成 。 聚合了AI最强算力平台、最优质的算法模型开发能力和最优质的集成、部署和服务能力 , 将支撑和加速各行业、各产业与人工智能的融合 , 让各个行业、各个产业具备可感知、自学习、可进化的能力 , 最终帮助用户完成业务智能转型升级 , 以生态之力成就行业、产业AI大脑 。
通过元脑生态 , 浪潮加快了智算中心的建设和应用服务落地 。 例如 , 在金融行业 , 浪潮在国有六大行的服务器占有率超过50% , 在银行支撑着每日数亿笔金融交易 , 每日TB级账务更改 , 每日数千亿元金融业务IT服务 。 浪潮和声扬科技、赞华一起推出的“智慧声纹识别”解决方案在某大型银行落地 , 该方案实现2秒语音通话即可确认客户身份 , 1∶1声纹确认准确率达99.7% , 大幅提升了银行在客服、风控方面的工作效率 。
在铁路运输行业 , 浪潮支撑了新一代客票系统、铁路电子支付平台、短信及语言平台等系统 , 硬件计算能力提升30%以上 , 售票能力从每天1500万张提升至2000万张 。 浪潮联合鼎汉奇辉和中铁信息工程集团 , 在中国铁路落地智慧车站方案 , 实现了智能识别危险人员和人流拥挤情况等 , 识别精度达98% , 在中国铁路的5个站点实现了高清货检和客运站智能管理 , 大大促进了铁路的智慧转型 。
新基建带来了巨大的发展机遇 , 抓住机会就会发展壮大 , 丧失机会就可能被淘汰出局 。 智算中心作为未来的动力源 , 将是我们赢得未来的关键 。
(据在4月9日2020年浪潮云数据中心合作伙伴大会上的演讲整理 。 标题及小标题为编者拟)
(来源:中国工业和信息化)


    推荐阅读