超能网|双倍CUDA单元和良心价格！新一代Ampere GPU架构和首发显卡简析

今天不管对DIY硬件业界还是对游戏业界来说，都是个大日子，因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡。首批的三张显卡在性能方面可谓是有着非常大的提升，就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能。那么， RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢？本文就基于官方目前给出的信息对RTX 30系显卡的核心，也就是代号为Ampere的GPU进行简要的分析，由于官方尚未给出新一代显卡的白皮书，故本文只能挖掘到较为浅层的一些信息。

本文插图

Turing架构是NVIDIA的初代RTX架构，它首次引入了RT Core ，并升级了从Volta架构开始引入的Tensor Core 。

本文插图

它的意义在于将整个GPU的处理管线分成多个部分，早前的GPU只需要全力渲染画面即可，而在引入实时光线追踪特效之后， GPU中的处理核心需要分心去算光线追踪特效，偏偏这部分又非常吃算力，会让传统的GPU浪费非常多的算力。

本文插图

于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线，也就是RT Core 。但在开启实时光线追踪的情况下，单靠RT Core在那边加速仍然没法达成高帧数的目标，所以NVIDIA研发了DLSS技术，也就是利用机器学习，通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出。因为降低了实际的渲染分辨率，所以大幅减轻了GPU的计算压力，从而达成开启实时光追下的流畅游戏。

本文插图

但是， Turing显卡的一大问题就是计算规模不够大，老黄在发布上也很坦诚的说，开了光追的Turing显卡表现和没开光追的Pascal差不太多（从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super）。但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了，那么，是时候换工艺了。

本文插图

与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是， NVIDIA选择和三星合作，定制了基于三星8nm工艺的制程，称为Samsung 8N（N for NVIDIA）。在面积最大的GA102芯片中， NVIDIA塞入了280亿个晶体管，这个数字是TU102的1.5倍，但仍然比面向计算用途的GA100少很多（542亿）。
【超能网|双倍CUDA单元和良心价格！新一代Ampere GPU架构和首发显卡简析】

本文插图

这多出来的1.5倍晶体管主要被用在加倍FP32单元上，从NVIDIA官网上的对比表我们即可看到这一明显的区别点。

本文插图

以往在NVIDIA的GPU中，一个CUDA Core对应一个FP32计算单元，在Turing GPU上面， NVIDIA加入了独立的整数计算单元，它与传统FP32计算单元的比例是1:1 ，到了Ampere上，因为对算力有非常高的需求， NVIDIA直接选择把FP32单元的数量暴力翻倍。并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式，仍然保留了1:1的算法，所以我们看到了CUDA核心数量暴涨的一代显卡，下表对几代同级显卡的CUDA核心数量进行了对比：
注：Ampere显卡的INT单元数量暂时按照1:2的比例计算。
从上表中我们可以感受到RTX 30显卡在计算规模上的暴增，不过这只是它性能增幅来源的一个部分。 NVIDIA还引入了第二代RT Core和第三代Tensor Core 。新的RT Core在处理光线追踪相关的计算时，可达到初代RT Core的1.7x效率，而GA100的同款Tensor Core则带来了2.7x的AI性能提升。

本文插图

另外不得不提的还有新的显存。 RTX 3080和RTX 3090都使用了来自于美光的GDDR6X显存，在显存带宽上逼近1TB/s的大关。这多个方面拼合到一起，让RTX 30系列显卡拥有了暴涨的性能表现。

本文插图

第二代RT Core让RTX 30显卡在越复杂的实时光追场景下有更高的性能增幅

本文插图

总的来看， Ampere GPU在能耗比上达成了一个1.9x的进步，在半导体制程提升日益困难的今天，这个进步幅度已经算是不小了。但是从上图我们也需要注意到， Ampere显卡在功耗上将会比Turing显卡去到更高的地步。
再来详细谈一谈这次发布的三张显卡。

本文插图

首先是RTX 3080 ，官方将其作为旗舰卡，而不是RTX 3090 。官方标称它有2倍于RTX 2080的性能。

本文插图

就算单看RTX 3080的CUDA核心数量，我也会信NVIDIA的说法，毕竟它有着三倍于RTX 2080的CUDA核心数量。但是这也带来了一个问题，三倍于RTX 2080的CUDA核心数量为什么只能带来两倍的性能？这个问题只能等到官方公布显卡白皮书的时候才能知晓了。
RTX 3080香不香？当然了，同样的起售价给你两倍的性能，能不让人高喊“NVIDIA YES”吗？但各位准备买新显卡的朋友需要注意两个问题，一个是供电，另一个是新卡的体积。
三星的8nm制程实际上是10nm的改良版，给GPU带来的省电效果是比从TSMC N16跨越到N7差得远了。庞大的GPU规模带来的必然是能耗和发热的大幅增加，公版的RTX 3080的标称TGP达到了320W ，同时其GPU最高限温被抬高到了93℃ 。原本GPU的瞬时功耗就要比标称的TGP高上不少，现在基数都高了很多，那瞬时功耗还不得上天？这就给电源带来了很大的挑战，首先是瓦数要高， 750W可能只能算是底线，上850W会更好，另外是电源的品质要好，能够应付新显卡的超高瞬时功率。那么功耗高了，发热量当然也会上去，这带来了第二个问题，为了即时散去热量，显卡厂商需要升级散热器，增大鳍片、加多风扇叶片数量这些都是常规操作了，自然会带来散热器体积的增加，进而增加了显卡整体的体积。官方给公版RTX 3080的标称厚度是双槽，不过就我们手上的显卡和今晚AIC们的发布来看，新显卡占到三槽的可以说是比比皆是。

本文插图

再来说说大家都爱的RTX 3070 。如果说RTX 2070是一代坑爹卡的话，那么这次的RTX 3070可以说是回归系列定位初心的一张卡。让我们回想一下，当年的各种x70显卡提供的是什么？是次旗舰级别的性能表现和平近易人的价格，最经典的就是GTX 970和GTX 1070 Ti了。那么这次的RTX 3070在性能上虽然仍被拉开了一个身位，次旗舰级别的性能表现无从谈起，但如果进行代际之间比较的话，它是比RTX 2080 Ti略强一点点的，换句话说，你可以用4000块钱买到一张RTX 2080 Ti级别的显卡，想想之前RTX 2080 Ti卖到多少吧。唯一的一个问题是，它仍然只有8GB的显存，在未来的4K游戏普及时代，这点显存可能会出现不够用的情况。

本文插图

再说说这次的卡皇RTX 3090 。老黄用了“BFGPU”这个自造缩写来描述这款显卡。它瞄准的，已经不再是简单的4K游戏，而是更高层次的8K游戏，而且一做，就要做到8K60 。当然，这个目标是要通过DLSS技术来实现的，但也足以让人们惊叹了。 24GB的显存也让它很适合用来当成一张创作卡，或者说，准专业卡。最后，￥11999的售价看上去不怎么亲民，但想想上一代Titan RTX的定价……足够让人发自肺腑的说一句，老黄良心啊。
当然，老黄是不是真的良心，我们抱持怀疑态度，因为这次的RTX 30系显卡采取如此有性价比的定价方案可能是受到AMD方面的压力了， RDNA 2可能真的不是省油的灯，所以NVIDIA需要通过提前布局市场来防范对手。
好了，以上就是我个人对Ampere架构和首发游戏卡的快速分析，如有看法可以在评论区讨论。

超能网|双倍CUDA单元和良心价格！新一代Ampere GPU架构和首发显卡简析

推荐阅读

扑救：四川凉山州木里县发生森林火灾两千多人参与扑救

人生|“人若有福，一看便知”：有福气的人，往往有这3大特征，很准！

「双子座」4月下旬，财运水涨船高，3属相有贵人指路，一生衣食无忧

原创星座|喜报登门，3星座终于告别单身，11月桃花运逆袭

星巴克公司|高考都来了端午买的粽子还没发货星巴克客服：等7月中下旬

#教育部回应最有影响力学者排行榜#教育部回应最有影响力学者排行榜

【特斯拉】续航超700公里，王传福的杀手锏，特斯拉也怕三分

湘湘带你看社会|车窗被碾压起的石子砸碎该咋办？别慌！交警、保险部门建议……

淘宝店铺创建时间怎么查怎么查店铺什么时候开的

腰果银耳拌香芹

心衰症状有哪些

迷彩虎军事：车门能挡住子弹吗？老外拿退役警车做实验

国资|复牌“官宣”，博天环境与青岛西海岸国资分手，新归宿为中山市国资

绝地养鸡王|魔兽怀旧服：玩家感叹自己变了，硬生生把魔兽完成了氪金游戏！

舌尖上的创想|澳洲甲悉尼ＦＣ复赛首轮逆转对手，新城堡联队状态有待观察

外星人ufo探索网 ufo实拍外星人

如何自己学好英语英语心得

天坛圜丘坛的数字“密码”

双腿烫伤疤痕十八年只能一辈子长裤了么

直播吧|本赛季11次出场7次零封，官方：利兹联买断门将梅斯利耶