超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
今天不管对DIY硬件业界还是对游戏业界来说 , 都是个大日子 , 因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡 。 首批的三张显卡在性能方面可谓是有着非常大的提升 , 就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能 。 那么 , RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢?本文就基于官方目前给出的信息对RTX 30系显卡的核心 , 也就是代号为Ampere的GPU进行简要的分析 , 由于官方尚未给出新一代显卡的白皮书 , 故本文只能挖掘到较为浅层的一些信息 。
本文插图
Turing架构是NVIDIA的初代RTX架构 , 它首次引入了RT Core , 并升级了从Volta架构开始引入的Tensor Core 。
本文插图
它的意义在于将整个GPU的处理管线分成多个部分 , 早前的GPU只需要全力渲染画面即可 , 而在引入实时光线追踪特效之后 , GPU中的处理核心需要分心去算光线追踪特效 , 偏偏这部分又非常吃算力 , 会让传统的GPU浪费非常多的算力 。
本文插图
于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线 , 也就是RT Core 。 但在开启实时光线追踪的情况下 , 单靠RT Core在那边加速仍然没法达成高帧数的目标 , 所以NVIDIA研发了DLSS技术 , 也就是利用机器学习 , 通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出 。 因为降低了实际的渲染分辨率 , 所以大幅减轻了GPU的计算压力 , 从而达成开启实时光追下的流畅游戏 。
本文插图
但是 , Turing显卡的一大问题就是计算规模不够大 , 老黄在发布上也很坦诚的说 , 开了光追的Turing显卡表现和没开光追的Pascal差不太多(从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super) 。 但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了 , 那么 , 是时候换工艺了 。
本文插图
与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是 , NVIDIA选择和三星合作 , 定制了基于三星8nm工艺的制程 , 称为Samsung 8N(N for NVIDIA) 。 在面积最大的GA102芯片中 , NVIDIA塞入了280亿个晶体管 , 这个数字是TU102的1.5倍 , 但仍然比面向计算用途的GA100少很多(542亿) 。
【超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析】
本文插图
这多出来的1.5倍晶体管主要被用在加倍FP32单元上 , 从NVIDIA官网上的对比表我们即可看到这一明显的区别点 。
本文插图
以往在NVIDIA的GPU中 , 一个CUDA Core对应一个FP32计算单元 , 在Turing GPU上面 , NVIDIA加入了独立的整数计算单元 , 它与传统FP32计算单元的比例是1:1 , 到了Ampere上 , 因为对算力有非常高的需求 , NVIDIA直接选择把FP32单元的数量暴力翻倍 。 并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式 , 仍然保留了1:1的算法 , 所以我们看到了CUDA核心数量暴涨的一代显卡 , 下表对几代同级显卡的CUDA核心数量进行了对比:
注:Ampere显卡的INT单元数量暂时按照1:2的比例计算 。
从上表中我们可以感受到RTX 30显卡在计算规模上的暴增 , 不过这只是它性能增幅来源的一个部分 。 NVIDIA还引入了第二代RT Core和第三代Tensor Core 。 新的RT Core在处理光线追踪相关的计算时 , 可达到初代RT Core的1.7x效率 , 而GA100的同款Tensor Core则带来了2.7x的AI性能提升 。
本文插图
另外不得不提的还有新的显存 。 RTX 3080和RTX 3090都使用了来自于美光的GDDR6X显存 , 在显存带宽上逼近1TB/s的大关 。 这多个方面拼合到一起 , 让RTX 30系列显卡拥有了暴涨的性能表现 。
本文插图
第二代RT Core让RTX 30显卡在越复杂的实时光追场景下有更高的性能增幅
本文插图
总的来看 , Ampere GPU在能耗比上达成了一个1.9x的进步 , 在半导体制程提升日益困难的今天 , 这个进步幅度已经算是不小了 。 但是从上图我们也需要注意到 , Ampere显卡在功耗上将会比Turing显卡去到更高的地步 。
再来详细谈一谈这次发布的三张显卡 。
本文插图
首先是RTX 3080 , 官方将其作为旗舰卡 , 而不是RTX 3090 。 官方标称它有2倍于RTX 2080的性能 。
本文插图
就算单看RTX 3080的CUDA核心数量 , 我也会信NVIDIA的说法 , 毕竟它有着三倍于RTX 2080的CUDA核心数量 。 但是这也带来了一个问题 , 三倍于RTX 2080的CUDA核心数量为什么只能带来两倍的性能?这个问题只能等到官方公布显卡白皮书的时候才能知晓了 。
RTX 3080香不香?当然了 , 同样的起售价给你两倍的性能 , 能不让人高喊“NVIDIA YES”吗?但各位准备买新显卡的朋友需要注意两个问题 , 一个是供电 , 另一个是新卡的体积 。
三星的8nm制程实际上是10nm的改良版 , 给GPU带来的省电效果是比从TSMC N16跨越到N7差得远了 。 庞大的GPU规模带来的必然是能耗和发热的大幅增加 , 公版的RTX 3080的标称TGP达到了320W , 同时其GPU最高限温被抬高到了93℃ 。 原本GPU的瞬时功耗就要比标称的TGP高上不少 , 现在基数都高了很多 , 那瞬时功耗还不得上天?这就给电源带来了很大的挑战 , 首先是瓦数要高 , 750W可能只能算是底线 , 上850W会更好 , 另外是电源的品质要好 , 能够应付新显卡的超高瞬时功率 。 那么功耗高了 , 发热量当然也会上去 , 这带来了第二个问题 , 为了即时散去热量 , 显卡厂商需要升级散热器 , 增大鳍片、加多风扇叶片数量这些都是常规操作了 , 自然会带来散热器体积的增加 , 进而增加了显卡整体的体积 。 官方给公版RTX 3080的标称厚度是双槽 , 不过就我们手上的显卡和今晚AIC们的发布来看 , 新显卡占到三槽的可以说是比比皆是 。
本文插图
再来说说大家都爱的RTX 3070 。 如果说RTX 2070是一代坑爹卡的话 , 那么这次的RTX 3070可以说是回归系列定位初心的一张卡 。 让我们回想一下 , 当年的各种x70显卡提供的是什么?是次旗舰级别的性能表现和平近易人的价格 , 最经典的就是GTX 970和GTX 1070 Ti了 。 那么这次的RTX 3070在性能上虽然仍被拉开了一个身位 , 次旗舰级别的性能表现无从谈起 , 但如果进行代际之间比较的话 , 它是比RTX 2080 Ti略强一点点的 , 换句话说 , 你可以用4000块钱买到一张RTX 2080 Ti级别的显卡 , 想想之前RTX 2080 Ti卖到多少吧 。 唯一的一个问题是 , 它仍然只有8GB的显存 , 在未来的4K游戏普及时代 , 这点显存可能会出现不够用的情况 。
本文插图
再说说这次的卡皇RTX 3090 。 老黄用了“BFGPU”这个自造缩写来描述这款显卡 。 它瞄准的 , 已经不再是简单的4K游戏 , 而是更高层次的8K游戏 , 而且一做 , 就要做到8K60 。 当然 , 这个目标是要通过DLSS技术来实现的 , 但也足以让人们惊叹了 。 24GB的显存也让它很适合用来当成一张创作卡 , 或者说 , 准专业卡 。最后 , ¥11999的售价看上去不怎么亲民 , 但想想上一代Titan RTX的定价……足够让人发自肺腑的说一句 , 老黄良心啊 。
当然 , 老黄是不是真的良心 , 我们抱持怀疑态度 , 因为这次的RTX 30系显卡采取如此有性价比的定价方案可能是受到AMD方面的压力了 , RDNA 2可能真的不是省油的灯 , 所以NVIDIA需要通过提前布局市场来防范对手 。
好了 , 以上就是我个人对Ampere架构和首发游戏卡的快速分析 , 如有看法可以在评论区讨论 。
推荐阅读
- 陈松伶让张萌吃大蒜配面包,婆婆随口一句话被全网骂!
- 晒晒高一儿子的营养早餐,简单食材用心做,网友纷纷求同款妈妈
- 杨振宁|网传物理学家杨振宁去世,系谣言!昨夜还与友人回信互动!
- 河南“网红早餐”,1碗4元,每天卖6大桶,外地人:不再想吃第2次
- 这种野菜路边很常见,摘回家蒸一蒸,变身网红美食,松软又清香
- 一家三口早餐,用了30分钟,营养十几种,网友:比我家午餐都丰盛
- 网上超火的芝士爆浆紫薯饼,做法就是这么简单! 太好吃了
- 种族主义|《纽约时报》煽动对中国的种族主义,美网友群起斥责
- 一家三口的晚餐,半小时搞定,晒朋友圈,网友:家的味道,真香
- 母子二人的精致早餐,发朋友圈炫耀,网友吐槽道道都想打包!
