GPU选购指南:训练ML模型,我必须买RTX3080吗?


GPU选购指南:训练ML模型,我必须买RTX3080吗?

文章插图
 
深度学习是一个计算要求非常高的领域,你对 GPU 的选择将从根本上决定你的深度学习体验 。但是,如果你想购买一块新 GPU,主要看哪些特性呢?GPU 内存、内核、张量核?如何做出有成本效益的选择?这篇文章将深入研究这些问题,消除常见的误解,让你对如何考虑 GPU 有一个直观的理解,并提供建议,帮助你做出正确的选择 。
前排提醒:本文字数约为 15000,阅读时间较长,可收藏后慢慢阅读 。
嫌长不看,先放结论总体最好的 GPU:RTX 3080 和 RTX 3090 。
(个人)避免使用的 GPU:任何 Tesla 卡;任何 Quadro 卡;任何 Founders Edition 卡;Titan RTX、Titan V、Titan XP 。
颇具成本效益而价格高昂:RTX 3080 。
颇具成本效益而价格较便宜:RTX 3070、RTX 2060 Super 。
我钱不多:购买二手卡,RTX 2070(400)、RTX2060(400)、RTX2060(300)、GTX 1070(220)、GTX1070Ti(220)、GTX1070Ti(230)、GTX 1650 Super(190)、GTX980Ti(6GB190)、GTX980Ti(6GB150) 。
我几乎没钱:有许多创业公司在推广他们的云:使用免费的云积分,并在不同公司的账户之间来回切换,直到能买得起一块 GPU 。
我做 Kaggle:RTX 3070 。
我是一名有竞争力的计算机视觉、预训练或机器翻译研究人员:4x RTX 3090 。务必要等到有了良好的冷却和足够的电力后(我将更新这篇博文)
我是一名 NLP 研究人员:如果你不从事机器翻译、语言建模或任何类型的预训练工作,那么 RTX 3080 就足够了而且颇具成本效益 。
我刚开始接触深入学习,而且我很认真:从一块 RTX 3070 开始 。如果你在 6 到 9 个月后仍然很认真,卖掉你的 RTX 3070,并购买 4x RTX 3080 。根据你下一步选择的领域(初创公司、Kaggle、研究、深度学习应用),卖掉你的 GPU,三年后再买更合适的(下一代 RTX 40s GPU) 。
我想尝试深度学习,但没当真:RTX 2060 Super 就很好,但可能需要使用新电源 。如果你的主板有一个 PCIe x16 插槽,并且有一个大约 300W 的电源,那么 GTX 1050 Ti 是一个很好的选择,因为它不需要任何其他计算机组件就可以在你的台式计算机上工作了 。
用于模型并行化的、少于 128 个 GPU 的 GPU 集群:如果你可以为你的集群购买 RTX GPU:66% 的 8x RTX 3080 和 33% 的 8x RTX 3090(要确保能有效地冷却) 。如果解决不了 RTX 3090 的冷却问题,那么可以购买 33% 的 RTX 6000 GPU 或 8x Tesla A100 。如果不能购买 RTX GPU,那么我可能会选择 8x A100 Supermicro 节点或 8x RTX 6000 节点 。
用于模型并行化的、128 个 GPU 的 GPU 集群:考虑下 8x Tesla A100 设置 。如果你使用超过 512 个 GPU,那么你应该考虑配置一个 DGX A100 SuperPOD 系统,以匹配你的规模 。
正文开始这篇博文旨在让你对 GPU 和 NVIDIA 的 Ampere 系列 GPU 有不同层次的了解 。
(1)如果你对 GPU 如何工作、什么让 GPU 速度更快、NVIDIA RTX 30 Ampere 系列 GPU 有什么独特之处等问题的细节不感兴趣,那么你可以跳到性能及每美元性能图表和建议部分 。这些是这篇文章的核心和最有价值的内容 。
(2)如果你关心具体的问题,我在这篇博文最后一部分回答了最常见的问题,以消除一些误解 。
(3)如果你想深入了解 GPU 和张量核是如何工作的,最好是从头到尾阅读这篇文章 。根据你对相关主题的了解,你可以跳过一两个小节 。
我会在每个主要部分的开头加上一小段总结,希望可以帮助你决定是否要阅读这个部分 。
概 述这篇文章的结构如下 。
首先,我将解释是什么使 GPU 速度更快 。我将讨论 CPU 与 GPU、张量核、内存带宽、GPU 存储层次以及它们与深度学习性能的关系 。对于 GPU 可以提供什么,这些解释可能会帮助你得到一个更直观的认识 。
然后,我将对 GPU 的性能进行理论估计,并将其与 NVIDIA 的一些市场基准进行比较,以获得可靠的、无偏差的性能数据 。我将讨论新的 NVIDIA RTX 30 Ampere 系列 GPU 的独特特性,如果你购买 GPU,这些特性是值得考虑的 。
在此基础上,我提出了 1-2、4、8 GPU 设置和 GPU 集群的 GPU 建议 。之后是问答部分,我回答了 Twitter 上常见的问题;在这一节中,我还将讨论一些常见的误解和其他一些五花八门的问题,比如云与桌面对比、冷却方式、AMD 与 NVIDIA 对比等 。
GPU 如何工作?如果你经常使用 GPU,那么了解它们如何工作是很有用的 。这些知识有助于你理解为什么 GPU 在某些情况下速度慢而在其他情况下速度快 。然后,你可以更好地理解为什么你首先需要一个 GPU,以及其他未来的硬件选项可能会如何竞争 。如果你只是想要有用的性能数值和参数,以帮助你决定购买哪个 GPU,那么你可以跳过这一节 。对于 GPU 如何工作的问题,最好的高阶解释是我在 Quora 上的回答:


推荐阅读