亲爱的数据|华为陈默博士:以MUST为基,引领技术,构筑高性能数据存储底座



亲爱的数据|华为陈默博士:以MUST为基,引领技术,构筑高性能数据存储底座
本文插图

2020年9月28日 , 第十六届全国高性能计算学术年会(CCF HPC China 2020)在郑州召开 。 “HPC CHINA”与“德国ISC”、“美国SC”并驾齐驱 , 被誉为世界三大超算盛会之一 , 已历经15载沉淀 。
在此次大会期间 , 华为举办了《华为高性能计算解决方案高层研讨会》平行论坛 , 聚焦华为高性能计算技术实力 。 论坛上 , 华为数据存储与机器视觉产品线解决方案设计部部长、首席架构师陈默博士发表了题为《以MUST为基 , 构建新一代HPC存储系统》的演讲 , 给产业界带来华为对存储系统的思考 。
亲爱的数据|华为陈默博士:以MUST为基,引领技术,构筑高性能数据存储底座
本文插图

首先 , 陈默博士介绍高性能计算在发展中出现了几大趋势:
第一个趋势是数值计算和数据分析结合 , HPC走向HPDA、HPC-based AI融合 。 这里指的是高性能计算和大数据、人工智能技术的融合 , 而这个融合又分为两种 , 分别在两个层面发生 。
应用层面发生的融合是 , 原有高性能计算的应用需要用传统的数值计算方式完成 , 用超算解公式 , 算结果 。 但是 , 原先使用传统科学计算的学术研究中 , 越来越多地使用人工智能深度神经网络技术 , 为未来计算设施的融合奠定了基础 。
比如来自高校的分子动力学学者在前沿论文中做过一个实验 , 采用了两种方法:其一是用传统的数值运算拟合曲线;其二是用人工智能的方式 , 也就是用深神经网络的方式训练曲线 。 最后 , 两条曲线对比发现 , 基本上是完全一致的 。 这个例子说明 , 在部分场景出现了人工智能计算和传统数据计算的融合 , 类似这样的研究为基础设施的融合提供了前提 。 伴随上层应用需求的融合 , 下层的基础设施便于采用一致的方式提供服务 。 如果上层应用需求无法融合 , 那么下层计算则需要更多的异构调度 。
另一个融合发生在底层的基础设施层面 。 原先高性能计算资源利用率不高的情况 , 遇上大数据和人工智能大算力的需求 , 如何让高性能计算适配这种新需求、新变化 。
第二个趋势是数据量爆发 , 异构计算加入 , 对存力提出更高要求 。 比如基因测序和遥感卫星 , 图片分辨率提高 , 数据量必然增加 。 又如油气勘探中的图像数据 , 由二维变为三维 , 结果也是数据量激增 。 还比如 , 无人驾驶中 , 每辆车训练数据能达到60TB每天 。 以前 , 算力和存力相互匹配 , 协同发展 。 但是人工智能革命发生了 , 人工智能是一种很耗算力的技术 , 尤其是GPU的引入 , 使算力消耗指数级上升 , 而存储还在“正常”发展 。 算力和存力的“剪刀差”越来越大 , 给存储留下了发展机会 。
第三个趋势是数据增长和业务实时性需求提升 , 对存储安全可靠提出了更高要求 。 Hypersion 2019年的数据显示 , 在过去一年中 , 全球超算中心的77%被存储故障所困扰 。 其中 , 12%的超算中心一年面对10次以上的故障 。 而现实情况是 , 以数据增长和业务实时性的要求 , 超算中心对可靠性的要求不会倒退 , 会越来越高 。
第四个趋势 , 数据出现了热数据、温数据、冷数据的分化 , 热数据高性能、冷数据大容量、海量数据流动管理是挑战 。 热数据一般存放在高性能闪存介质中 , 偶然使用或者访问的温数据需要考虑读取存储的性能 , 放在HDD大容量池 , 而低频使用数据则会存在低价值的存储介质中 , 比如蓝光磁带库 。 与此同时 , 数据管理的复杂度也大大增加 。
随着产业的发展 , 高性能计算存储系统面临着4个挑战 。 架构方面要支持多样性的算力 , 多种协议接口 。 性能方面要支持更高的通量 , 需要更强的计算能力来匹配 。 还要满足国家安全与可靠性的要求 。 最后 , 数据在全生命周期都是可管可控的 。 另外 , 大数据有三个副本 , 备份安全可靠 , 但是在超算中心 , 数据一旦丢失 , 便无法计算 。


推荐阅读