GPU选购指南:训练ML模型,我必须买RTX3080吗?( 十 )


在社区方面,AMD 和NVIDIA 的对比有点像Julia 和Python 。Julia 有很大的潜力,很多人会说,它是科学计算的高级编程语言 。然而,与Python 相比,Julia 很少被使用 。这是因为Python 社区非常强大 。Numpy、SciPy、Pandas 都是功能强大的软件包,有很多人在使用它们 。这与NVIDIA vs AMD 的问题非常相似 。
因此,在引入张量核等效特性(1/2 到1 年?)并围绕ROCm 建立一个强大的社区(2 年?)之前,AMD 很可能都无法赶上NVIDIA 。AMD 总是会在特定的子领域(如加密货币挖掘、数据中心)抢夺一部分市场份额 。不过,在深度学习领域,至少几年的时间内,NVIDIA 可能会保持其垄断地位 。
什么时候使用云GPU?什么时候使用专用的GPU 台式机/ 服务器?经验法则:如果你希望做深度学习超过一年,那就买一台GPU 台式机 。否则,最好使用云实例 。
最好自己算一下 。例如,如果对比下配备了1x V100 的AWS V100 spot 实例和一个只有一块RTX 3090 的台式机(性能类似),那么对于台式机,我们要花2200 美元( 2-GPU Barebone + RTX 3090) 。此外,假设你在美国,你需要额外支付每千瓦 / 时 0.12 美元的电费,而 AWS 实例是每小时 2.14 美元 。
以每年 15% 的利用率来说,台式机每年消耗的电量为:

(350 Watt (GPU) + 100 Watt (CPU))*0.15 (utilization) * 24 hours * 365 days = 591 kW/h
即每年 591kW/h,需额外支付 71 美元 。
在利用率为 15%(一天中 15% 的时间使用云实例)的情况下,台式机和云实例的盈亏平衡点大约是 300 天(2311 美元 vs 2270 美元):
2.14/h∗0.15(utilization)∗24hours∗300days=2.14/h∗0.15(utilization)∗24hours∗300days=2,311
因此,如果你希望在 300 天后继续运行深度学习模型,最好是购买一台台式机,而不是使用 AWS spot 实例 。
对任何云服务,你都可以进行类似的计算,以决定是使用云服务还是台式机 。
下面是常见的利用率:
  • 博士生个人台式机:< 15%
  • 博士生 slurm GPU 集群:> 35%
  • 企业 slurm 研究集群:> 60%
一般来说,对于那些思考前沿想法比开发实用产品更重要的职业来说,利用率较低 。有些领域的利用率很低(可解释性研究),而其他领域的利用率则高得多(机器翻译、语言建模) 。一般来说,个人机器的利用率几乎总是被高估了 。大多数个人系统的利用率通常在 5-10% 之间 。这就是为什么我强烈推荐 slurm GPU 集群给研究小组和公司,而不是个人的桌面 GPU 机器 。
GPU选购指南:训练ML模型,我必须买RTX3080吗?

文章插图
 
深度学习是一个计算要求非常高的领域,你对 GPU 的选择将从根本上决定你的深度学习体验 。但是,如果你想购买一块新 GPU,主要看哪些特性呢?GPU 内存、内核、张量核?如何做出有成本效益的选择?这篇文章将深入研究这些问题,消除常见的误解,让你对如何考虑 GPU 有一个直观的理解,并提供建议,帮助你做出正确的选择 。
前排提醒:本文字数约为 15000,阅读时间较长,可收藏后慢慢阅读 。
嫌长不看,先放结论总体最好的 GPU:RTX 3080 和 RTX 3090 。
(个人)避免使用的 GPU:任何 Tesla 卡;任何 Quadro 卡;任何 Founders Edition 卡;Titan RTX、Titan V、Titan XP 。
颇具成本效益而价格高昂:RTX 3080 。
颇具成本效益而价格较便宜:RTX 3070、RTX 2060 Super 。
我钱不多:购买二手卡,RTX 2070(400)、RTX2060(400)、RTX2060(300)、GTX 1070(220)、GTX1070Ti(220)、GTX1070Ti(230)、GTX 1650 Super(190)、GTX980Ti(6GB190)、GTX980Ti(6GB150) 。
我几乎没钱:有许多创业公司在推广他们的云:使用免费的云积分,并在不同公司的账户之间来回切换,直到能买得起一块 GPU 。
我做 Kaggle:RTX 3070 。
我是一名有竞争力的计算机视觉、预训练或机器翻译研究人员:4x RTX 3090 。务必要等到有了良好的冷却和足够的电力后(我将更新这篇博文)
我是一名 NLP 研究人员:如果你不从事机器翻译、语言建模或任何类型的预训练工作,那么 RTX 3080 就足够了而且颇具成本效益 。
我刚开始接触深入学习,而且我很认真:从一块 RTX 3070 开始 。如果你在 6 到 9 个月后仍然很认真,卖掉你的 RTX 3070,并购买 4x RTX 3080 。根据你下一步选择的领域(初创公司、Kaggle、研究、深度学习应用),卖掉你的 GPU,三年后再买更合适的(下一代 RTX 40s GPU) 。
我想尝试深度学习,但没当真:RTX 2060 Super 就很好,但可能需要使用新电源 。如果你的主板有一个 PCIe x16 插槽,并且有一个大约 300W 的电源,那么 GTX 1050 Ti 是一个很好的选择,因为它不需要任何其他计算机组件就可以在你的台式计算机上工作了 。


推荐阅读