亲爱的数据|华为陈默博士:以MUST为基,引领技术,构筑高性能数据存储底座
本文插图
2020年9月28日 , 第十六届全国高性能计算学术年会(CCF HPC China 2020)在郑州召开 。 “HPC CHINA”与“德国ISC”、“美国SC”并驾齐驱 , 被誉为世界三大超算盛会之一 , 已历经15载沉淀 。
在此次大会期间 , 华为举办了《华为高性能计算解决方案高层研讨会》平行论坛 , 聚焦华为高性能计算技术实力 。 论坛上 , 华为数据存储与机器视觉产品线解决方案设计部部长、首席架构师陈默博士发表了题为《以MUST为基 , 构建新一代HPC存储系统》的演讲 , 给产业界带来华为对存储系统的思考 。
本文插图
首先 , 陈默博士介绍高性能计算在发展中出现了几大趋势:
第一个趋势是数值计算和数据分析结合 , HPC走向HPDA、HPC-based AI融合 。 这里指的是高性能计算和大数据、人工智能技术的融合 , 而这个融合又分为两种 , 分别在两个层面发生 。
应用层面发生的融合是 , 原有高性能计算的应用需要用传统的数值计算方式完成 , 用超算解公式 , 算结果 。 但是 , 原先使用传统科学计算的学术研究中 , 越来越多地使用人工智能深度神经网络技术 , 为未来计算设施的融合奠定了基础 。
比如来自高校的分子动力学学者在前沿论文中做过一个实验 , 采用了两种方法:其一是用传统的数值运算拟合曲线;其二是用人工智能的方式 , 也就是用深神经网络的方式训练曲线 。 最后 , 两条曲线对比发现 , 基本上是完全一致的 。 这个例子说明 , 在部分场景出现了人工智能计算和传统数据计算的融合 , 类似这样的研究为基础设施的融合提供了前提 。 伴随上层应用需求的融合 , 下层的基础设施便于采用一致的方式提供服务 。 如果上层应用需求无法融合 , 那么下层计算则需要更多的异构调度 。
另一个融合发生在底层的基础设施层面 。 原先高性能计算资源利用率不高的情况 , 遇上大数据和人工智能大算力的需求 , 如何让高性能计算适配这种新需求、新变化 。
第二个趋势是数据量爆发 , 异构计算加入 , 对存力提出更高要求 。 比如基因测序和遥感卫星 , 图片分辨率提高 , 数据量必然增加 。 又如油气勘探中的图像数据 , 由二维变为三维 , 结果也是数据量激增 。 还比如 , 无人驾驶中 , 每辆车训练数据能达到60TB每天 。 以前 , 算力和存力相互匹配 , 协同发展 。 但是人工智能革命发生了 , 人工智能是一种很耗算力的技术 , 尤其是GPU的引入 , 使算力消耗指数级上升 , 而存储还在“正常”发展 。 算力和存力的“剪刀差”越来越大 , 给存储留下了发展机会 。
第三个趋势是数据增长和业务实时性需求提升 , 对存储安全可靠提出了更高要求 。 Hypersion 2019年的数据显示 , 在过去一年中 , 全球超算中心的77%被存储故障所困扰 。 其中 , 12%的超算中心一年面对10次以上的故障 。 而现实情况是 , 以数据增长和业务实时性的要求 , 超算中心对可靠性的要求不会倒退 , 会越来越高 。
第四个趋势 , 数据出现了热数据、温数据、冷数据的分化 , 热数据高性能、冷数据大容量、海量数据流动管理是挑战 。 热数据一般存放在高性能闪存介质中 , 偶然使用或者访问的温数据需要考虑读取存储的性能 , 放在HDD大容量池 , 而低频使用数据则会存在低价值的存储介质中 , 比如蓝光磁带库 。 与此同时 , 数据管理的复杂度也大大增加 。
随着产业的发展 , 高性能计算存储系统面临着4个挑战 。 架构方面要支持多样性的算力 , 多种协议接口 。 性能方面要支持更高的通量 , 需要更强的计算能力来匹配 。 还要满足国家安全与可靠性的要求 。 最后 , 数据在全生命周期都是可管可控的 。 另外 , 大数据有三个副本 , 备份安全可靠 , 但是在超算中心 , 数据一旦丢失 , 便无法计算 。
陈默博士继续介绍:“其次 , 新型高性能计算的发展 , 完全是需求和应用驱动的 。 ”
他强调 , 结合以上趋势 , 高密和高性能不足以概括我们存储的所有能力 , 对下一代存储的要求涌现 , 包括多协议互通、数据流动和数据全生命周期管理 。 以前 , 高性能计算是基于文件的存储接口 , 现在 , 大数据是HDFS的接口 , 人工智能是对象的接口 。 如果没有多协议互通的能力 , 就需要有三份数据 , 三套存储 。
本文插图
由于历史的原因 , 不同的应用对存储的访问方式不一样 。 大数据时代 , 谷歌定义了HDFS 。 人工智能时代 , 亚马逊定义了对象 。 新型高性能计算的时代 , 华为定义MUST 。 MUST到底是什么?它的英文全称是:“Multi-protocol interworking framework”、“Ultra-dense and performance”、“Security and resilience”和“Total lifecycle management” 。
陈默博士总结道:“MUST是协议互通 , 高密高性能存储、安全可信和全生命周期的数据管理能力的集合 。 MUST是新一代HPC存储系统的一个基本要求 。 OceanStor Pacific是按照MUST要求打造的新一代HPC存储系统 。 ”
“我们欢迎更多的朋友 , 使用华为的OceanStor海量存储系统 , 来优化超算场景的性能 。 IDC全闪存Market Overview数据显示 , 华为存储在中国区市场占有率第一 。 不仅如此 , 华为存储的全球增长率也排在第一 。 Gartner主存储魔力四象限中 , 华为存储处于领导者象限 。 我们对存储技术的理解与积累应该让国内更多的力量 , 朝着正确的方向发展 , 所以 , 对于MUST的提出 , 华为是有底气的 。 ” 陈默博士补充道 。
陈默博士以身处产业前沿的洞察力 , 建议产业上游 , 建议学术界多关注超算存储 。 他谈道:“存储在超算解决方案里关注度比较低 , 注意力集中在研究计算方面 , 其实存储中值得研究的内容也很丰富 。 现在还是学术论文发表的蓝海 , 希望更多高性能计算领域的有志之士能够多投入精力研究存储 , 让学术研究更贴近产业 , 贴近需求 , 为工业界提供源源不断的创新动力 。 ”
(完)
《亲爱的数据》出品
本文插图
【亲爱的数据|华为陈默博士:以MUST为基,引领技术,构筑高性能数据存储底座】本文为***作者原创 , 未经授权不得转载
推荐阅读
- 卡瑞利珠单抗|2021 ELCC|春风得意马蹄疾:肺鳞癌一线治疗两大研究数据出炉
- ebmt|2021 EBMT大会研究进展精选,这些数据你了解吗?
- 疫苗|又有欧洲国家叫停牛津疫苗!法国接种后副作用数据来了
- 天问一号|天问一号即将登陆,美国呼吁共享科研成果,要求交出火星轨道数据
- 火星|美国已有5台探测器着陆火星,为何还要天问一号的数据?
- nasa|NASA再索要探火数据,中方回应提气,你强了美国才会尊重!
- 食香椿要不要焯烫?一组对比实验数据给出科学答案
- 睡眠|亲爱的你,睡眠还好吗?
- 埃隆马斯克|世界是虚拟的?所有人都是“0+1”的数据?疯狂的世界虚拟论
- 亚硝酸盐|隔夜菜到底能不能吃?真的致癌吗?用实测数据告诉你真相
