下一代英伟达Blackwell GPU架构及RTX 50系列GPU即将按计划登场。英伟达虽未官宣太多,但近月公司围绕“50”发布了大量的营销资料。种种迹象表明,产品大概率会在1月6日CES展会、CEO黄仁勋主题演讲时亮相,有望跻身顶级显卡行列,取代上一代产品。
原本预期2024年假日季能看到RTX 5090和RTX 5080,然而Blackwell B200因延迟与封装问题,计划推迟。如今预计2025年1月发布,月底前至少推出一到两款,可能多达四款桌面卡,笔记本RTX 50系列也有亮相可能。
英伟达已公布数据中心用Blackwell B200 GPU的不少核心细节。AI与数据中心版和消费级虽有差异,但过往也有共性,这为了解RTX 50系列GPU某些特性提供线索。
目前仍存大量未知数,像具体规格与定价详情。价格随时可变,所谓“泄露价”大概率不靠谱;规格按理当下应已敲定,毕竟产品拟1月底上市。
下面聊聊各类传闻、细节,涵盖发布日期、可能规格及相关技术。随着信息更新,这篇文章持续完善,以下是已知的英伟达Blackwell与RTX 50系列GPU的情况。
Blackwell和RTX 50系列发布日期
在所有未知因素中,至少首批Blackwell GPU 的发布日期或许是最容易确定的,尤其是当下。尽管早些时候我们听闻的情况并非如此,但 RTX 50 系列预计将于 2025 年 1 月发布,并在 2025 年 CES 展会上亮相。这虽有延迟,不过事出有因。
英伟达用于数据中心的Blackwell B100/B200 GPU 遭遇封装问题,也推迟了。鉴于过去一年数据中心业务赚得盆满钵满,投入更多资金与晶圆,优先保障 B200 准备就绪并推向市场是明智之举。至于游戏玩家?没错,这已不再是英伟达的重中之重。
这意味着,按照过往惯例,面向消费者的Blackwell GPU 算“晚”了。Ada Lovelace RTX 40 系列 GPU 于 2022 年 10 月首次亮相,Ampere RTX 30 系列 GPU 2020 年 9 月首次登场。再往前,RTX 20 系列在 2018 年 9 月推出,GTX 10 系列于 2016 年 5、6 月问世,GTX 900 系列 2014 年 9 月推出。整整十年间,英伟达新 GPU 架构大约每两年推出一次。即便如此,如今也仅比正常节奏晚了几个月。
这也不光关乎两年一更新的消费级 GPU 节奏。英伟达 2022 年 3 月在其年度 GPU 技术大会(GTC)上首次披露 Hopper H100 架构核心细节,Ada Lovelace 架构随后于同年 10 月登场。2020 年 5 月,英伟达首次公布 Ampere A100 架构,几个月后消费级变体亮相。2018 年 Volta V100 和 Turing 架构亦是如此,2016 年则有 Tesla P100 和 Pascal 架构。
所以,在过去四代产品中,我们先是了解到数据中心和AI GPU,消费级 GPU 大约六个月后披露并推出。英伟达公布了Blackwell B200 架构,要不是那恼人的 CoWoS 封装问题,原本可以合理推测 2024 年秋就能听闻消费级变体的消息。
随着Blackwell B200 全面上市推迟到 2025 年,其他一切也跟着推迟了。AI工作负载与销售火爆,有些地方抢购数十万计的英伟达 GPU。这些产品的利润远超任何消费级部件,不过我们仍可能看到专业级和数据中心级显卡与消费级采用相同 GPU。
我们不清楚英伟达下一代Blackwell部件的确切名称或型号,但确信会有 RTX 5090、RTX 5080、RTX 5070 和 RTX 5060 这些型号,或许还会有 Ti 和/或 Super 变体的某种组合。其中一些变体无疑会在首发约一年后的中期更新时推出。我们也好奇英伟达是否会推出 RTX 5050 GPU——40 系列和 20 系列在桌面 GPU 上跳过了这一档次,不过 20 系列有 GTX 1660 和 1650 级别 GPU。
顶级的 RTX 5090 和 5080 应该会率先在 2025 年 1 月登场。有传言称,我们或许还能见到 RTX 5070 Ti 和 RTX 5070,不过它们是否会在 CES 主题演讲上正式亮相还有待观察。5060 级别硬件可能会在首批 50 系列 GPU 推出后的六个月内随时亮相。和往常一样,预计Blackwell GPU 会遵循典型的交错发布时间表。
台积电4NP,改进的4nm Nvidia
在 2024 年 GPU 技术大会(GTC)上,有一个令人惊讶的消息:Blackwell B200 将采用台积电 4NP 制程节点,即所谓的“4 纳米英伟达性能”制程,本质上是对用于 RTX 40 系列的 N4 节点的一种调校优化版本。虽说如今制程名称在很大程度上已与物理特性脱节,但许多人原本预期英伟达会转向台积电前沿的 N3 制程技术变体。结果,它选择了对过去两年用于 Hopper 和 Ada Lovelace GPU 的现有 4N 节点进行改进。
走这条路无疑能节省一些成本,尽管台积电并未披露与各合作伙伴的合同定价协议。Blackwell B200 还采用了双芯片方案,两颗相同的芯片通过 10TB/s 的英伟达高带宽接口(NV-HBI)连接。或许英伟达认为这一代产品没必要采用 3 纳米级别的节点。
然而,这为 AMD 甚至英特尔打开了一扇门,让它们有可能转向更新、更先进的制程节点,将更高效的晶体管集成到更小的芯片中。英伟达在 RTX 30 系列上也采取过类似做法,采用了成本较低的三星 8N 制程,而非更新、更好的台积电 N7 制程。目前尚不清楚下一代即将推出的 GPU 情况会如何,不过英特尔的 Battlemage 系列至少看起来仍在使用较旧的节点制程,如 Arc B580 采用台积电 N5 制程,在很多方面已经落后于 RTX 40 系列。
(在主题演讲正式宣布之前)仍存在一种可能性:虽然Blackwell B200 变体采用台积电 4NP 制程,但消费级芯片可能会使用不同的节点。此前已有不同节点甚至不同制造商的先例,例如 Ampere A100 采用台积电 N7 制程,而 RTX 30 系列芯片采用三星 8N 制程。但极有可能所有的Blackwell GPU 都将采用台积电 N4P 制程。
下一代GDDR7内存
长期以来,人们一直预期面向消费者和专业人士(即并非严格意义上的数据中心用途)的Blackwell GPU 将采用 GDDR7 显存。种种迹象表明,GDDR7 显存将及时为下一代 GPU 做好准备,并且已经全面投入生产。三星和 SK 海力士在 2024 年 GPU 技术大会(GTC)上展示了 GDDR7 芯片,美光也证实 GDDR7 已投入生产。
当前这一代 RTX 40 系列 GPU 使用的是 GDDR6X 和 GDDR6 显存,时钟频率在 17Gbps 到 23Gbps 之间。GDDR7 的目标速度高达 36Gbps,比 GDDR6X 快 50%,比普通 GDDR6 快 80%。SK 海力士表示甚至还会有 40Gbps 的芯片,不过尚未给出这些芯片具体的上市时间。无论如何,GDDR7 将在各个层面为显存带宽带来急需的提升。
英伟达不太可能实际推出时钟频率为 36Gbps 的显卡。过去,它使用 24Gbps 的 GDDR6X 芯片,但时钟频率设置为 22.4Gbps 或 23Gbps,而且在我们测试的各种 RTX 4090 显卡中,一些 24Gbps 的美光芯片显然被降频到了 21Gbps。目前有迹象表明,RTX 5090 会将其 GDDR7 显存的时钟频率设置为 28Gbps,而 RTX 5080 可能会选择 32Gbps 或更高的显存速度。不管怎样,这对带宽来说都是一个不小的提升。
与 RTX 4090 使用的 21Gbps 的 GDDR6X 相比,28Gbps 的 GDDR7 显存将使内存带宽实实在在地增加 33%。如果我们的推测正确,即 RTX 5080 选择 32Gbps 的 GDDR7,那么与 RTX 4080 Super 相比,带宽将类似地增加 39%,相较于最初的 RTX 4080 的 22.4Gbps 显存,带宽将增加 43%。如同Blackwell的许多其他方面一样,英伟达及其合作伙伴究竟会将这些技术推进到什么程度,还有待观察。
我们还预计英伟达将在Blackwell GPU 上继续使用大容量的L2缓存。这将提供更有效的内存带宽——每次缓存命中意味着无需进行内存访问。例如,以 50%的缓存命中率为例,这将使有效内存带宽翻倍,不过需要注意的是,命中率会因游戏和设置而异,特别是高分辨率会降低命中率。
GDDR7 还有可能解决内存容量与接口宽度的问题。在 GTC 大会上,我们得知 16Gb(2GB)的芯片已经投入生产,24Gb(3GB)的芯片也即将问世。对于即将推出的Blackwell GPU,那些非 2 的幂次方容量的更大芯片是否已经准备就绪呢?至少有一则传言称,英伟达可能会推出配备 16GB(由 2GB 芯片组成)和 24GB(由 3GB 芯片组成)显存的 RTX 5080 变体。只要价格差异不是太大,并且其他规格保持不变,这不失为一个不错的办法。基础型号可以配备 2GB 芯片,而升级变体则可以借助 3GB 芯片使显存容量增加 50%。
目前,消费者显卡并没有迫切需要超过 24GB 的显存。但据说 RTX 5090 有一个 512 位的接口,这意味着它默认将配备 32GB 显存,未来还可能推出 46GB 变体。对于专业和专注于人工智能的显卡而言,更高容量的 GDDR7 芯片可能特别有益,因为大型 3D 模型和大语言模型正变得越来越普遍。例如,带有 3GB 芯片、PCB 两面都有芯片的 512 位接口,可以打造出一款拥有 96GB 显存的专业级 RTX 6000 Blackwell一代显卡。
更重要的是,24Gb 芯片的可用性意味着英伟达(以及 AMD 和英特尔)可以在 192 位接口上配置 18GB 显存,在 128 位接口上配置 12GB 显存,在 96 位接口上配置 9GB 显存,而且所有显存都位于 PCB 的一侧。我们还可能看到配备 256 位接口的 24GB 显卡,以及配备 384 位接口的 36GB 显卡——专业显卡的容量还可能翻倍。显存容量的定价肯定是一个因素,但消费者 GPU 上何时出现 24Gb GDDR7 内存芯片,而不是会不会出现,更像是一个时间问题。
Blackwell架构更新
Blackwell(Blackwell)架构相较于上一代的 Ada Lovelace 架构,几乎肯定会包含各种更新与增强,但就目前而言,我们确切知晓的内容可以用两个字概括:不多。不过,英伟达的每一代 GPU 至少都会有一些架构升级,预计这一轮也不会例外。
我们已知用于数据中心的Blackwell B200 GPU 再次对张量核心进行了改进,原生支持 FP4 和 FP6 数值格式。这些格式主要对人工智能推理有用,考虑到消费级 GPU 会同专业级显卡一样身兼数职,所以可以肯定的是,所有Blackwell芯片应该都会支持 FP4 和 FP6。(举个相关例子,Ada 架构在其张量核心中加入了与 Hopper 架构相同的 FP8 支持。)
英伟达在每一代 RTX 产品中都提升了光线追踪性能,Blackwell架构似乎也会延续这一趋势。随着像《心灵杀手 2》和《赛博朋克 2077》等更多游戏推行全路径追踪,更不用说模组制作者有可能利用 RTX Remix 为老款 DX10 时代的游戏添加全路径追踪效果,对更高光线追踪吞吐量的需求愈发迫切。可能还会有其他以光线追踪为核心的更新,就如同 Ada 架构推出了 SER(着色器执行重排序)、OMM(不透明度微映射)和 DMM(位移微网格)那样。但具体会有哪些改变,目前还不得而知。
Blackwell架构还可能带来哪些架构上的变化呢?如果我们的推测没错,即英伟达消费级部件仍采用台积电 4NP 制程,那估计不会有天翻地覆的改动。二级缓存依然会很大,用于 DLSS 3 帧生成的增强型 OFA(光流加速器)自然也会保留。它可能还会经过一些调整优化,有传言称 RTX 50 系列可能会搭载 DLSS 4 “神经渲染” 技术。不过要注意,英伟达此前曾将 DLSS 超分辨率和帧生成都称作 “神经渲染”,所以还得拭目以待。
无论是图形处理还是更通用的工作负载,原始计算能力几乎肯定会有可观的提升,不过大概是 30% 左右的增长幅度,而非 50% 或更高。例如,RTX 4080 的 FP32 计算能力为 40 太 FLOPS,相比之下 RTX 3080 是 30 太 FLOPS,增长了 33%;而 RTX 4090 为 83 太 FLOPS,RTX 3090 是 40 太 FLOPS,增幅高达 107%。或许英伟达也会在 RTX 5090 上 “大干一场”,同时在其他型号上做些小改进,我们很快就会知晓答案。
RTX 50系列定价
RTX 50 系列 GPU 会卖多少钱呢?坦率地说,考虑到当前的市场状况,没什么理由指望英伟达会比照现行的 RTX 40 系列 GPU 降价。英伟达会把价格定在它认为市场能接受的高位。鉴于潜在的更高人工智能性能以及来自非游戏领域的需求增长,如果下一代产品沿用与当前一代相同的定价结构,那就算我们运气好了。
我们期望代际间价格不要上涨,但这一期望可能落空。“降级款”RTX 4080 Super 售价 1000 美元,这意味着如今该档次的 GPU 比起 RTX 2080 Super 时代贵了 43%。
当然,在 RTX 3080 10GB 卖 699 美元、RTX 3080 Ti 卖 1199 美元那段时期,由于 GPU 加密挖矿盛行,再加上新冠疫情的影响,价格乱成一团。谢天谢地,虽说目前用 GPU 挖某些加密货币在技术上仍有盈利空间,但据 WhatToMine 估算,一块 RTX 4090 每天的收益还不到 1 美元,这意味着按当前的费率和价格,要十多年才能回本。(没人应该这么干,因为 GPU 很可能在回本前就报废了。)
经济型 GPU 市场也基本没落了。集成显卡已经发展到对大多数常见工作负载“足够快”的程度,甚至包括适度的游戏,移动处理器尤其如此,而桌面端的集成显卡通常性能要差得多。最后一批真正瞄准经济型市场的新 GPU 是 AMD 乏善可陈的 RX 6500 XT 和 RX 6400,英伟达自 2019 年推出 GTX 1650 Super 后就没再推出过售价低于 200 美元的新 GPU(除非你把 GTX 1630 那场闹剧也算上)。
这意味着在专用桌面显卡领域,如今“经济型”指的是 300 美元左右,“主流”是 400 - 600 美元,“高端”指的是 800 - 1000 美元的 GPU,“发烧级”则瞄准 1500 美元及以上价位。至少,这似乎是英伟达对市场的看法。AMD 的 GPU 往往更实惠一些,特别是看零售价的时候,但英伟达在过去至少四年里一直维持着较高的定价结构。
Blackwell GPU 上市时价格会有多离谱呢?要是所有产品都比上一代贵,可别惊讶,特别是那些经厂商超频的 AIB 合作伙伴定制款。未来几个月价格是否居高不下,很可能取决于人工智能泡沫是否破裂。如果人工智能需求持续旺盛,要是 RTX 5090 定价 2499 美元,就像老款泰坦 RTX 那样,也别大惊小怪。
Blackwell推测规格
鉴于我们前文所述的种种情况,希望大家能明白,目前还没有关于Blackwell(Blackwell)的官方消息。2022年英伟达遭黑客攻击一事让我们知晓了Blackwell这个名称以及一些潜在代号,但那都是两年多前的事了,这期间很多情况都可能发生变化。而且,当时有关Blackwell的细节本来就很少。不过,现在距离其预计发布时间只剩几天了,泄露出来的信息也变得更加具体了。
以下是我们更新后的推测规格表,包含了相应的名称和规格。在官方正式发布之前,一切都尚无定论,但下个月即将推出的产品很可能与我们在此展示的内容非常相似(等 GPU 正式发布后,我们会更新该表格)。再次强调,上述信息(目前)并非官方消息,有可能会发生变化。目前,在没有更多消息披露的情况下,GPU 的加速时钟频率在所有情况下都暂设为2.7GHz。有传言称Blackwell的时钟频率可能更高,这会直接影响最终性能。我们基本上是按照英伟达的常规算法,依据给定的流式多处理器(SMs)数量来推算 CUDA、光线追踪(RT)以及张量核心的数量,通常每个 SM 包含 128 个 CUDA 核心、1 个 RT 核心和 4 个张量核心。此外,传统上每个 SM 还有 4 个纹理映射单元(TMUs)。
正如我们以往所见,英伟达能够很轻易地调整启用的 SM 数量。有时会出现规格经过修改的限量供应 GPU,它们能提供相近的性能,并且具备一定灵活性。最终规格要到发布前几个月才能确定下来,这意味着从 RTX 5090 到 RTX 5070 的规格在现阶段可能比较准确了,但有关 5060 级别产品的规格更多是猜测,而非基于确切消息或泄露内容。
其他方面基本上都是占位符,要等英伟达最终敲定才行。这适用于晶体管数量、芯片尺寸、二级缓存大小、光栅操作单元(ROPS)、功耗要求以及价格等方面。我们不敢声称现在就掌握了实际规格的内部消息,不过随着 GPU 预计很快就要发布,一些传闻中的核心数量可能已经比较接近真实情况了。
在接下来的日子里,一旦有官方数据公布,我们就会更新上述表格。最终,所有未知或靠猜测得出的内容都会被确切信息所取代。几乎可以肯定的是,产品数量肯定远不止这四种不同的 GPU,但目前去猜测其他产品的情况没什么意义。只需注意,RTX 40 系列有十种不同的桌面 GPU,RTX 30 系列有十二种不同的桌面变体。
16-电源连接器
在首批 RTX 4090 显卡遭遇 16 针接口熔化的严重问题后,很多人可能希望英伟达放弃新的 PCI-SIG 标准。不过我们敢打赌(尽管只是打个比方啦),这种情况不会发生,而且改用改良后的 ATX 12V - 2x6 接口有望解决所有潜在问题。
有意思的是,RTX 40 系列并非第一代采用 16 针接口的 GPU。早在 2020 年,RTX 30 系列就开始使用 12 针适配器(没有 12VHPWR 的那额外 4 个检测引脚)。我们没听说过太多关于 RTX 3090 和 RTX 3080 适配器熔化的事,因为那些显卡的总图形功率(TGP)大多远低于 400W。RTX 3090 Ti 显卡率先使用了新款 16 针接口,但同样也没出现大量熔化问题的报道。随着 RTX 40 系列广泛使用 16 针接口,这意味着Blackwell(Blackwell)将成为英伟达至少部分采用这一标准的第三代 GPU。
RTX 4090 出现熔化问题的一个关键因素似乎是通过一个相对小巧的接口获取 450W 甚至更高的功率。我们不禁好奇,英伟达在Blackwell上会把功率要求提高到多高,但很难想象会超过 600W。即便如此,在我们看来,使用两个各能提供 300W 功率的 16 针接口,要比只用一个接口更明智。希望相关各方都能从 RTX 4090 的熔化问题中吸取教训,让新一代产品更加坚固耐用。
未来的GPU格局
英伟达不会是下一代显卡领域的唯一参与者。英特尔的Battlemage(战戟)系列已经推出,至少 Arc B580 已上市,Arc B570 也计划于 2025 年 1 月 16 日发布。AMD 的 RDNA 4 也会在某个时间点亮相,我们预计大多数下一代 GPU 会在 2025 年上半年到年中推出。
不过,虽说肯定会有竞争,但在过去十年里,英伟达一直在 GPU 领域占据主导地位。目前,Steam 硬件调查显示,英伟达占据了 75.8%的显卡市场份额,AMD 占 16.2%,英特尔仅占 7.7%(还有 0.3%属于“其他”)。然而,这还不是全部情况。
AMD 和英特尔都生产集成显卡,可以肯定的是,它们各自很大一部分市场份额来自没有独立 GPU 的笔记本电脑和台式机。在明显属于独立 GPU 的产品中,AMD 市场份额最高的是 RX 6600,占 0.99%。英特尔甚至都没有独立 GPU 出现在这项调查中,不过集成的 Arc 显卡占 0.24%。就 AMD 和英伟达过去三代独立 GPU 而言,Steam 调查显示英伟达占据了 92.1%的市场,AMD 则占 7.9%。
Valve收集数据的具体方式即便往好了说也是晦涩难懂的,AMD 的实际情况可能比调查显示的要好些。但不管怎样,在排行榜顶端,英伟达显卡占据绝对优势。例如,JPR 近期的报告称,英伟达掌控着 88%的独立 GPU 市场,AMD 仅占 12%,这再次体现了英伟达目前的主导地位。
英特尔显然希望“Battlemage”系列能在显卡领域的经济型到主流市场区间更具竞争力。我们得看看是否会有更高规格的“Battlemage”GPU 以及其规格能达到多高,不过 B580 目标售价为 249 美元,即将推出的 B570 起售价为 219 美元。AMD 目前在性能、驱动以及能效方面与英伟达的竞争情况稍好一些,但我们仍在等待其 GPU 迎来“锐龙时刻”,到目前为止,GPU 小芯片策略尚未取得显著成功。
目前,英伟达在 GPU 领域的顶尖产品上能提供更高的整体性能,光线追踪性能更是远超其他产品。在人工智能领域,它也凭借诸如 DLSS(包括 DLSS 3.5 光线重建)、Broadcast 等相关技术占据主导地位。当下这场竞赛英伟达优势明显,AMD 和英特尔要想缩小差距、获取可观的市场份额,至少在独立显卡领域,还需要付出很多努力。另一方面,英伟达的高价格以及对非游戏市场的人工智能领域更为侧重,可能会给其竞争对手留下机会。很快我们就能看到局势如何发展了。