GPU选购指南：训练ML模型，我必须买RTX3080吗？( 七 ) _GPU选购

假设我将领导一个研究实验室 / 创业公司。我将把 66-80% 的预算投入到 RTX 3080 机器上，20-33% 用于配备了强大水冷装置的 RTX 3090 机器。我的想法是，RTX 3080 的成本效益更高，可以作为原型机，通过 slurm 集群设置来共享。因为原型设计应该以敏捷的方式完成，所以应该使用较小的模型和数据集。RTX 3080 非常适合这个场景。一旦学生 / 同事获得了一个很好的原型模型，他们就可以将原型转移到 RTX 3090 机器上，并将其扩展为更大的模型。
一般建议总的来说，RTX 30 系列非常强大，我强烈推荐这些 GPU 。如前一节所述，要注意内存，还要注意电源和冷却需求。如果你的 GPU 之间有一个 PCIe 插槽，则冷却将没有任何问题。否则，如果使用 RTX 30 卡，请准备好水冷装置、PCIe 扩展器或有效的鼓风扇卡（未来几周的数据将会说明，NVIDIA 的风扇设计是足够的）。
一般来说，我会推荐 RTX 3090 给任何买得起它的人。不仅是现在，未来 3-7 年它都将是一个非常有效的卡。因此，这是一项将保持强劲增长的好投资。HBM 内存三年内不太可能变便宜，所以下一个 GPU 只会比 RTX 3090 好 25% 左右。我们可能会在 5-7 年内看到廉价的 HBM 内存，在那之后，你肯定想要升级。
如果你有多个 RTX 3090，请确保你选择的解决方案可以提供有效的冷却和足够的电力。对于什么样的设置合适，我将随着可用数据的增加更新关于这个问题的博文。
对于没有强烈竞争需求的企业（研究公司、Kaggle 竞赛、竞争性初创公司），我推荐 RTX 3080 。这是一个更经济的解决方案，并将确保大多数网络的训练都足够快。如果你使用了合适的内存技巧，并且不介意额外进行编程，那么现在有足够的技巧将一个 24GB 的神经网络适配到 10GB 的 GPU 上。因此，如果你接受一些不确定性和额外的编程，那么 RTX 3080 也可能是比 RTX 3090 更好的选择。
一般来说，对于学习深度学习和原型设计，RTX 3070 也是一种可靠的卡，它比 RTX 3080 便宜 200 美元。如果你负担不起 RTX3080，那么 RTX3070 是最好的选择。
如果你的预算有限，而 RTX 3070 又太贵，那么一个二手 RTX 2070 在易趣上大约要 260 美元。现在还不清楚是否会推出 RTX 3060，但如果你的预算有限，可能也值得再等一段时间。如果定价与 RTX 2060 和 GTX 1060 类似，那么预计其价格将在 250 美元到 300 美元之间，而且性能相当强劲。
GPU 集群建议GPU 集群设计高度依赖于用途。对于一个 +1024 GPU 系统，网络最重要，但在这样的系统上，如果用户一次最多只使用 32 个 GPU，投资强大的网络基础设施就是浪费。在这里，我将使用类似原型推广的推理，如在 RTX 3080 和 RTX 3090 案例对比中所做的那样。
一般来说，因为 CUDA 许可协议，RTX 卡被禁止进入数据中心。然而，大学通常可以得到这个规则的豁免。与英伟达的人取得联系请求豁免权是值得的。如果你被允许使用 RTX 卡，那么我建议使用配备了 RTX 3080 或 RTX 3090 GPU 的标准 Supermicro 8 GPU 系统（如果可以保证有效冷却）。一组 8x A100 节点就可以确保在原型化之后有效地“推广”，特别是在不能保证 8x RTX 3090 服务器能够得到充分冷却的情况下。在这种情况下，我建议使用 A100 而不是 RTX 6000 / RTX 8000，因为 A100 非常划算，而且是面向未来的。
如果你想在一个 GPU 集群（+256 个 GPU）上训练非常大的网络，我推荐配备了 A100 GPU 的 NVIDIA DGX SuperPOD 系统。在 +256 GPU 的规模下，网络变得至关重要。如果你想扩展到超过 256 个 GPU，那么你将需要一个高度优化的系统，把标准解决方案攒在一起就不在有效了。
特别是在 +1024 GPU 的规模上，市场上唯一具有竞争力的解决方案是谷歌 TPU Pod 和 NVIDIA DGX SuperPod 。在这个规模上，我更喜欢谷歌 TPU Pod，因为他们定制的网络基础设施似乎优于 NVIDIA DGX SuperPod 系统——尽管这两种系统非常接近。比起 TPU 系统，GPU 系统为深度学习模型和应用提供了更多的灵活性，而 TPU 系统支持更大的模型，并提供更好的伸缩性。所以两种系统都有各自的优点和缺点。
不要买这些 GPU我不建议购买多个 RTX Founders Editions 或 RTX Titans，除非你有 PCIe 扩展器可以解决它们的冷却问题。它们运行时很容易过热，其性能将远远低于上文图表中的数值。4x RTX 2080 Ti Founders Editions GPU 将很快超过 90C，此时，其内核的时钟频率会降低，运行速度将比适当冷却的 RTX 2070 GPU 更慢。
我不建议购买 Tesla V100 或 A100，除非你是被迫购买的（禁止 RTX 数据中心策略的公司），或者你想在一个巨大的 GPU 集群上训练非常大的网络——这些 GPU 不是很划算。

GPU选购指南：训练ML模型，我必须买RTX3080吗？( 七 )

推荐阅读

民航之翼|第四家民营航空公司完成更名！

「东易日盛南京分公司」这个餐厅厨房能提升家庭关系，爱了爱了！，215㎡都市风格大平层

情有独钟的梦学会这5种营养豆腐的做法，比肉好吃100倍

「微信」对标抖音！微信推出视频号功能，也能愉快的刷短视频

华为手机|国庆这三款最值得买，高配低价超良心！你买对了吗

官宣离巢！港圈知名姐妹花承认离开公司，有指因资源不均感失望

中兴|超1000项改进！中兴手机系统MyOS正式发布：S30系列首发搭载

感觉已练出腹肌但是有赘肉咋办

华为|美制裁下的华为供应链：索尼传感器业务失速呼吁国家支持

生物|东方生物“四联”检测试纸完成CE认证

iOS|苹果iOS 14正式版推送时间曝光，如果是这些型号，最好别升级！

骑士优格山海皆可平，「全心爱你」：所爱隔山海

厦门玩乐|BAO美啦｜建议把41岁的高圆圆写进词典，是锦绣的同义词

娱乐圈爆料：杨紫、赵露思、王源、鞠婧祎、任嘉伦、张嘉倪

和平精英|和平精英巅峰赛首批参赛选手名单公布，网友：不求人呢？

科学“无限的子环”可能成为下一个拍摄黑洞的先驱者

戴安娜|戴安娜逝世23周年！威廉难掩悲痛红了眼眶，弟弟哈里却不见踪迹

飞浩星座|不要大意，细节决定成败，生肖猪要注意：本命年刚过

|美国这次大怒，又晚一步！5000亿大单花落中国

科学|宇宙诞生于138亿年前的一次大爆炸，那么大爆炸之前又是什么？