AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷( 二 )


一旦满足条件(如达到用户定义的时间) , 运行就会终止 。 根据记录的指标计算出最终结果 , 然后上报 。
做完这套「AI试卷」 , 得到的分数又该如何来衡量和排名呢?
我们知道 , FLOPS是当前最常用来反映高性能计算整体计算能力的性能指标 。
在这套「试卷」中 , 研究人员还是用FLOPS作为主要的指标 , 直接描述AI加速器的计算能力 。
在AIPerf中 , 浮点数运算速率被当作一个数学问题来求解 。 通过对深度神经网络的分解 , 对每个部分的运算量进行解析的分析 , 得到浮点数运算量 。
结合任务运行时间 , 即可得到浮点数运算速率并作为benchmark分数 。
理论到位了 , 实验就要跟上 。
硬件规格方面如下:
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

评估环境的详情如下:
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

最后 , 公布性能结果!
研究人员在各种规模的机器上运行了AIPerf这项基准测试 , 主要对两方面特性做了评估 , 分别是稳定性和可扩展性 。
从10个节点到50个节点 , 最多有400个GPU 。 所有的中间结果 , 包括生成的架构、超参数配置、每个时间点的精度和时间戳 , 都记录在日志文件中 。
下图展示了用不同规模的机器进行评估的「基准分数」和「规范分数」(单位均为FLOPS) , 随时间产生的变化 。
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

结果表明 , AIPerf基准测试具有鲁棒性和线性可扩展性 。
接下来 , 是在不同规模机器下 , GPU及其内存利用率的相关评估 。
从图中可以发现 , AI训练卡整体的计算和内存利用率很高(均大于90%) 。 在不同模型之间的过渡阶段 , 由于数据的加载和计算图的编译等原因 , 利用率会有所下降 。
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

为什么要出这套「试卷」?
「浏览试卷」后 , 就需要思考一个问题:
为什么要出AIPerf这套AI基准测试?
这个问题就需要「由表及里」地来看待 。
首先 , 从表象来看 , 类似MLPerf和LINPACK基准测试程序 , 自身存在一些漏洞和问题:
要么工作负载大小是固定的 , 而算力的增加 , 应当用来解决更大规模的问题 , 限制了可扩展性 。
要么在没有代表性工作负载的情况下 , 无法反映系统对AI的跨栈计算性能 。
虽然诸如此类的评测标准 , 目前来看是具有一定的价值和意义 , 但客观存在的不足也是不容忽视 。
毕竟在当前人工智能飞速发展的大环境下 , 算力显得格外重要 , 而完备及更加科学的「基准测试」 , 将有助于算力的发展 。
由此看来 , 「基准测试」和「算力」更像一对作用力和反作用力 。
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

其次 , 从深层意义来看 , 发展算力 , 是非常必要的 。
对于高性能计算来说 , 早在1993年便诞生了「TOP500」榜单 , 从一开始的美国、日本霸榜 , 到中国算力的崛起 , 不难看出国家在这项建设中的投入 。
原因很简单 , 高性能计算对于各个国家发展航天事业、石油勘探、水利工程 , 再到新兴的高科技产业 , 都起到至关重要的作用 。
但伴随着AI的兴起 , 改变了一往传统高性能计算的「求解方法」——AI+HPC才是未来算力的发展趋势 。
AI|AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
图片

近年来TOP500榜单 , 便能体现这一点:
首台登顶榜首的ARM架构HPC , 是基于富士通48/52核A64FX ARM 。
排名第二的SUMMIT , 采用IBM Power+NVIDIA V100 。


推荐阅读