GPU选购指南:训练ML模型,我必须买RTX3080吗?( 七 )


假设我将领导一个研究实验室 / 创业公司 。我将把 66-80% 的预算投入到 RTX 3080 机器上,20-33% 用于配备了强大水冷装置的 RTX 3090 机器 。我的想法是,RTX 3080 的成本效益更高,可以作为原型机,通过 slurm 集群设置来共享 。因为原型设计应该以敏捷的方式完成,所以应该使用较小的模型和数据集 。RTX 3080 非常适合这个场景 。一旦学生 / 同事获得了一个很好的原型模型,他们就可以将原型转移到 RTX 3090 机器上,并将其扩展为更大的模型 。
一般建议总的来说,RTX 30 系列非常强大,我强烈推荐这些 GPU 。如前一节所述,要注意内存,还要注意电源和冷却需求 。如果你的 GPU 之间有一个 PCIe 插槽,则冷却将没有任何问题 。否则,如果使用 RTX 30 卡,请准备好水冷装置、PCIe 扩展器或有效的鼓风扇卡(未来几周的数据将会说明,NVIDIA 的风扇设计是足够的) 。
一般来说,我会推荐 RTX 3090 给任何买得起它的人 。不仅是现在,未来 3-7 年它都将是一个非常有效的卡 。因此,这是一项将保持强劲增长的好投资 。HBM 内存三年内不太可能变便宜,所以下一个 GPU 只会比 RTX 3090 好 25% 左右 。我们可能会在 5-7 年内看到廉价的 HBM 内存,在那之后,你肯定想要升级 。
如果你有多个 RTX 3090,请确保你选择的解决方案可以提供有效的冷却和足够的电力 。对于什么样的设置合适,我将随着可用数据的增加更新关于这个问题的博文 。
对于没有强烈竞争需求的企业(研究公司、Kaggle 竞赛、竞争性初创公司),我推荐 RTX 3080 。这是一个更经济的解决方案,并将确保大多数网络的训练都足够快 。如果你使用了合适的内存技巧,并且不介意额外进行编程,那么现在有足够的技巧将一个 24GB 的神经网络适配到 10GB 的 GPU 上 。因此,如果你接受一些不确定性和额外的编程,那么 RTX 3080 也可能是比 RTX 3090 更好的选择 。
一般来说,对于学习深度学习和原型设计,RTX 3070 也是一种可靠的卡,它比 RTX 3080 便宜 200 美元 。如果你负担不起 RTX3080,那么 RTX3070 是最好的选择 。
如果你的预算有限,而 RTX 3070 又太贵,那么一个二手 RTX 2070 在易趣上大约要 260 美元 。现在还不清楚是否会推出 RTX 3060,但如果你的预算有限,可能也值得再等一段时间 。如果定价与 RTX 2060 和 GTX 1060 类似,那么预计其价格将在 250 美元到 300 美元之间,而且性能相当强劲 。
GPU 集群建议GPU 集群设计高度依赖于用途 。对于一个 +1024 GPU 系统,网络最重要,但在这样的系统上,如果用户一次最多只使用 32 个 GPU,投资强大的网络基础设施就是浪费 。在这里,我将使用类似原型推广的推理,如在 RTX 3080 和 RTX 3090 案例对比中所做的那样 。
一般来说,因为 CUDA 许可协议,RTX 卡被禁止进入数据中心 。然而,大学通常可以得到这个规则的豁免 。与英伟达的人取得联系请求豁免权是值得的 。如果你被允许使用 RTX 卡,那么我建议使用配备了 RTX 3080 或 RTX 3090 GPU 的标准 Supermicro 8 GPU 系统(如果可以保证有效冷却) 。一组 8x A100 节点就可以确保在原型化之后有效地“推广”,特别是在不能保证 8x RTX 3090 服务器能够得到充分冷却的情况下 。在这种情况下,我建议使用 A100 而不是 RTX 6000 / RTX 8000,因为 A100 非常划算,而且是面向未来的 。
如果你想在一个 GPU 集群(+256 个 GPU)上训练非常大的网络,我推荐配备了 A100 GPU 的 NVIDIA DGX SuperPOD 系统 。在 +256 GPU 的规模下,网络变得至关重要 。如果你想扩展到超过 256 个 GPU,那么你将需要一个高度优化的系统,把标准解决方案攒在一起就不在有效了 。
特别是在 +1024 GPU 的规模上,市场上唯一具有竞争力的解决方案是谷歌 TPU Pod 和 NVIDIA DGX SuperPod 。在这个规模上,我更喜欢谷歌 TPU Pod,因为他们定制的网络基础设施似乎优于 NVIDIA DGX SuperPod 系统——尽管这两种系统非常接近 。比起 TPU 系统,GPU 系统为深度学习模型和应用提供了更多的灵活性,而 TPU 系统支持更大的模型,并提供更好的伸缩性 。所以两种系统都有各自的优点和缺点 。
不要买这些 GPU我不建议购买多个 RTX Founders Editions 或 RTX Titans,除非你有 PCIe 扩展器可以解决它们的冷却问题 。它们运行时很容易过热,其性能将远远低于上文图表中的数值 。4x RTX 2080 Ti Founders Editions GPU 将很快超过 90C,此时,其内核的时钟频率会降低,运行速度将比适当冷却的 RTX 2070 GPU 更慢 。
我不建议购买 Tesla V100 或 A100,除非你是被迫购买的(禁止 RTX 数据中心策略的公司),或者你想在一个巨大的 GPU 集群上训练非常大的网络——这些 GPU 不是很划算 。


推荐阅读