亲爱的数据|超级计算机与人工智能:大国超算,无人领航( 四 )

亲爱的数据|超级计算机与人工智能:大国超算,无人领航
本文插图
全球Top500HPC榜单 , 也可以被称为“全球速度最快500台超级计算系统排名榜” 。2019年的榜单中近30%系统拥有加速卡/协处理器 , 即越来越多的系统配有大量低精度算术逻辑单元 , 以支撑人工智能计算能力需求 。尤其值得一提的是 , 榜单前10名都拥有人工智能计算的能力 。2019年 , 内蒙古呼和浩特 , 在HPC China会议上 , 清华大学计算机系郑纬民教授也做出判断: “人工智能应用有望成为超算的主流应用 。 ”郑纬民教授谈道:“具有顶级计算能力的超算系统理应为大规模人工智能应用提供助力 , 不断拓展人工智能的技术边界 。 2018年的戈登贝尔奖选择大规模深度学习应用 , 入围的应用中 , 人工智能相关的项目也前所未有地占据了半壁江山 。 ” “这一切都预示着人工智能与超算的结合 , 将越来越紧密 。 ”彼时 , 计算、存储、网络是高性能计算的老三件 。这好比自行车、缝纫机、手表 。而新关键点也进入视线 , 异构、数学库、调度、通讯库、AI库……硅谷钢铁侠马斯克参与创立的研究机构OpenAI发布了一份“人工智能与计算”分析报告 。自2012年以来 , 最大的人工智能训练中所使用的计算力呈指数增长 , 每3.4个月增长一倍 。亲爱的数据|超级计算机与人工智能:大国超算,无人领航
本文插图
算力是AI再次起飞的基石之一 , 如今已是像牙膏牙刷一样的AI日常消耗品 。深度神经网络规模越扩越大 , 超大规模人脸识别、超大规模自然语言处理模型如雨后春笋 。1750亿参数的GPT-3模型更是大到石破惊天 。需要大规模GPU或TPU集群 ,需要在可接受的时间内看到提升效果 ,需要异构硬件支持训练超大规模数据或模型 。“大力出奇迹”成为现象级需求 。亲爱的数据|超级计算机与人工智能:大国超算,无人领航
本文插图
微软亚洲研究院首席研究员刘铁岩 , 曾在“MSRA AI讲堂2019校园行”活动中谈道:“很多研究都在追求 ‘大力出奇迹’ 。 ”另一位重量级学者周明说:“(AI在发展)无休止的计算资源军备竞赛 。 ”超级计算 , 屹立潮头 ,人工智能 , 乘风而来 。人工智能的需求超越了任何一款芯片的单独处理能力 , 必须使用分布式架构 , 把很多加速器芯片协同起来一块儿工作 。 分布式训练的实际性能 , 高度依赖底层硬件的使用效率 。一个跨软件、跨硬件的复杂工程诞生 。困难 , 前所未有 。05.在中国工程院的院士中 , 女院士的数量 , 约占5% 。1957年出生的陈左宁 , 岁月堂堂忽六旬 , 依然在为中国高性能计算事业奔忙 。2020年初 , 她获得了中国计算机学会女性科技工作者“CCF夏培肃奖” 。她演讲的风格朴实 , 声音利落 , 知识密集 。简单地说 , 高性能计算的目标有三个 , 性能 , 性能 , 还是性能 。 现在多了一个跟大数据和人工智能融合的任务 。 超级计算机有些瓶颈是和服务器、小型机共同的 , 比如内存墙 。从某种角度讲 , 超算和人工智能是一个战壕里的战友 。但是 , 陈左宁院士的观点表达出这两个战友配合得并不默契 。“人工智能所需要的能力 , 没提升上去 。 超级计算机能够提供大量的计算能力 , 但是人工智能不需要 。 ”一位中科院高性能计算相关的研究员也在采访中谈道:“超级计算机为数值计算设计 , 并不是为人工智能设计 。 所以 , AI用于现在的超算体系上不合适 , 没办法物尽其用 , 只能说是——‘能做’ 。 ”陈左宁院士指出了方向:“经典高性能计算的环境可支持现有人工智能模型算法 , 但性能功耗和性价比都比较低 , 并非最适合的 , 需要创新体系结构和软件架构 。 人工智能不需要复杂的节点计算 , 也不要复杂的指令系统 。 体系结构的需求是高可扩展架构设计 , 更合理的映射 。 ”是战友 , 就应该亲密无间 , 生死之交 。但是 , 科学家的口气中都带了些勉强 。06.日月之行 , 若出其中 。星汉灿烂 , 若出其里 。在华为内部资料中 , 一份题为《超算中心建设汇报》的PPT上写着: “Gartner主存储魔力四象限中 , 华为存储处于领导者象限 。华为存储的全球增长率排第一 。华为存储在中国区市场占有率第一(IDC全闪存Market Overview数据显示) 。 ”外部资料同样如此 。 2020年9月29日 , IDC发布的《中国企业级外部存储市场季度跟踪报告 , 2020年第二季度》报告显示:华为市场份额同比猛增8.9%至30% 。美国科技巨头亚马逊公司旗下云计算服务平台AWS的S3对象存储服务是事实工业标准 。这种说法AWS官方绝对不会提 。但是可以观察到 , 大多数对象存储都有兼容S3的接口 , 包括 ,国内的公有云(阿里、腾讯、华为) ,备份软件厂商(Commvault公司等) ,硬件厂商(Netapp、EMC公司等) 。业内人士口头禅是:“大家都有(与之对应的)S3接口 。 ”AWS和华为都是ARM的信徒 , ARM也给高性能计算注入了活力 。如今 , 华为围绕鲲鹏和昇腾芯片建造出属于自己的“HPC+AI”的王国 , 全自研软硬件 。首先 , 发挥芯片的算力要构建数学库 , 华为自研全栈数学库 , 远在俄罗斯建立数学库人才团队 。其次 , 自建CANN库和开源深度学习框架MindSpore 。 其中MindSpore , 对标谷歌公司的TensorFlow 。再次 , 平台层面有自研作业调度和集群管理 , 从头开发 , 一行一行代码写 , 有加拿大研究院的参与 。最后 , 自研MPI+自研RoCE网络 , 性能逼近IMPI与IB结合的网络 。仰天一笑泪光寒 , “自研”成为华为的画风 。华为组织架构上 , 云&计算BG , 下面分为“云BU”“计算产品线”“数据存储与机器视觉产品线” , 计算产品线里包含了昇腾计算、鲲鹏计算子领域 。华为内部有大小云之分 , 云与计算BG , 昵称“大云” , 云BU , 昵称 “小云” 。曾在IBM任职多年 , 现任华为智能计算HPC解决方案首席架构师的王飞在演讲中也认可大数据 , 人工智能和高性能计算 , 大趋势是融合 。他谈道:“现在建一个大规模超算 , 一般不会专门针对传统单一HPC业务 , 肯定会考虑在上面运行多样性的业务 , 比如人工智能 , 大数据等 。 在一个大规模的集群环境下 , 多样性的业务 , 多样性的负载 , 融合是未来发展趋势 。 ”但是 , 更为关键的是 , 王飞用两句话表达了长期以来的思考: “多样性的业务和多样性的负载 , 使得我们需要多样性的算力 , 在一个集群里头可能会使用CPU、GPU、NPU、FPGA等各种通用和专用加速芯片 。 而支撑这些业务的软件平台也需要多种 , 包括传统的HPC调度平台 , AI深度学习平台 , 大数据平台、容器平台等 , 业务的融合也将促使多种平台软件的融合 , 这正逐渐成为当前技术发展的趋势 。 ”他冷峻的脸上 , 没有太丰富的表情 。停顿了一下 , 他继续说 。“以上这些 , 如何在一个集群里能部署好 , 融合到一起 , 并且很好的工作 , 这是个困难的事情 。 ”07.大数据一轮 , 出现了变革性的系统、软件和算法 。 人工智能对变革性技术的需求也绝少不了 。人工智能是典型的稠密计算 , 传统的科学计算和事务处理系统和软件 , 该如何适应?市场 , 从不为困难停留脚步 。拔剑须臾 , 兵家必争 。自2017年起 , 人工智能服务器快速增长 。自2018年起 , 五花八门厂商全栈人工智能系统现身于大大的广告屏上 。在2019年、2020年高性能计算大会现场 , 随手抽一张厂商广告 , HPC+AI字样已经随处可见 。演讲中 , 会议上 , AI+HPC讨论不断 , 麦克风轰隆隆 , 掌声哗啦啦 , 计时器叮叮咚 。2020年9月底 , 华为EI(企业智能)部门正在进行专门的AI与HPC融合的立项准备工作 。 按此推论 , 整合AI和HPC两侧的资源 , 共同发力 , 会为应对趋势有诸多好处 。华为在上海负责该项目的员工在采访中表示:“暂时不方便透露 。 ”参与者摩肩接肘 , 咳唾相闻 。曾几何时 , CPU的发展以提高主频为主要方向 , 因不能解决巨大的功耗问题而走到尽头 。后来 , 科研与产业换了车道 , 重点突破多核CPU技术 , 这个转折让我们赶上了 。 并行处理技术成为所有人的难点 , 我们面临的问题 , 国外也没有很好地解决 。如今 , 白发苍苍的老年人刷抖音都像上了发条 , 大街小巷的智能手机的处理器都变为多核的了 , 不做并行计算不行 。并行计算技术已经处在一个全新的时代 。 对于AI训练而言 , 多卡和多节点的支持变成硬性需求 。“下一个十年 , 将出现一个全新的体系结构的‘寒武纪大爆发’ , 学术界和工业界的计算机架构师将迎来一个激动人心的时代 。 体系结构的改进必须和并行算法、并行软件同步进行 , 而且越是高层的改进 , 效率提升就越大 。 ” 李国杰院士2020年谈道 。他强调:“因此 , 未来几十年一定是并行计算的黄金时代 。 ”科技 , 要给历史一个交代 。互联网大厂盘踞网络流量入口 , 历经大数据的洗礼 , 抢占AI射门的最佳位置 。这类大厂在AI训练时 , 分布式计算和并行计算所用的架构有何不同?对于这个问题 , 我采访了一流科技创始人 , 清华大学博士袁进辉 。袁博士先解释了之前的情况 , 他说:“之前 , 在互联网大厂 , 尤其是大数据、互联网业务中 , 机器学习所使用的技术架构 , 不是HPC的架构 。 ”他转折了一下:“但是 , 当深度学习起来之后 , 他们使用的架构就趋同了 。袁进辉博士总结道:“互联网大厂针对大数据与人工智能的深度学习集群架构 , 从高性能计算的架构里面借鉴了很多东西 。 比如 , 双剑合璧的CPU+GPU异构计算是先出现在HPC领域的 , 因为深度学习本身的计算特点 , 高度并行 , 计算密集 , 用异构非常适合 。 ”他的观点是:“现在看来 , 并行计算和分布式 , 互联网大厂深度学习集群架构和超级计算机已经非常类似了 。 ”一流科技公司是深度学习框架开源软件厂商 , 对标谷歌TensorFlow 。 一流科技与之江实验室联合研发了深度学习平台 。


推荐阅读