2026 年 6 月 1 日,英伟达在 GTC 台北大会上宣布 Vera Rubin 平台进入全面量产。同一天,AI 云服务商 CoreWeave 成为行业内首家完成 Vera Rubin NVL72 云端部署并验证上线的厂商,股价当日收于 124.82 美元,涨幅 13.96%,成交量较三个月均值高出约 90%。这两则消息在同一时间窗口出现,并非偶然——它标志着 AI 算力供给侧的又一次代际跃迁已经从实验室走入生产环境。
将 Vera Rubin NVL72 仅仅理解为一次芯片升级,会严重低估其行业含义。这场代际更迭真正触及的核心问题是:当模型参数突破万亿、推理负载增速全面超越训练、Agentic AI 要求毫秒级响应时,算力究竟应该以怎样的组织方式被部署、被消耗、被定价?Blackwell 给出了机柜级计算的起点,Vera Rubin 则试图将这个方向推向极端——用六款同步迭代的芯片、一个 100% 液冷的紧凑机柜、以及一个数量级的推理成本压缩,重新划定 AI 基础设施的效率边界。
从芯片迭代到系统集成:Vera Rubin 改变了什么竞争维度
传统 GPU 代际更迭的叙事逻辑通常是“制程进步—晶体管增加—算力提升—功耗降低”的线性链条。Vera Rubin NVL72 打破了这一叙事。它不再以单颗 GPU 为核心卖点,而是将一整个机柜定义为 AI 超级计算机的最小交付单元。
Vera Rubin NVL72 每机柜集成 72 颗 Rubin GPU 与 36 颗 Vera CPU,通过第六代 NVLink 提供 260 TB/s 的机柜级 Scale-up 总带宽。英伟达方面称这一带宽量已超过全球互联网总流量。系统采用 100% 全液冷方案,安装时间从传统架构的两小时缩短至五分钟。这些参数背后的真实变化是:算力竞争的核心指标正在从“单卡 TFLOPS”转向“机柜级系统效率”。
Blackwell NVL72 已经展示了机柜级计算的可能性——1.44 EFLOPS 推理算力、130 TB/s 内联带宽、部分液冷方案。Vera Rubin NVL72 则将这一概念向前推进了关键一步:推理算力提升至 3.6 EFLOPS(2.5 倍),训练算力从 10 PFLOPS 跃升至 35 PFLOPS(3.5 倍),GPU 内存从 HBM3e 升级为 HBM4,容量从 141 GB 翻倍至 288 GB,带宽从约 8 TB/s 提升至约 22 TB/s。这些数字叠加的结果并非简单的“性能翻倍”,而是一个系统性的效率重构。尤其值得注意的是,推理算力的提升幅度(5 倍)显著高于训练算力(3.5 倍)。这一差异化设计指向一个清晰的行业判断:推理正在取代训练,成为 AI 算力消耗的主战场。
六芯协同与全液冷:技术选择背后的供应链与成本逻辑
Vera Rubin NVL72 在芯片层面的动作并非单颗 GPU 升级,而是涉及六款全新设计的芯片:Vera CPU、Rubin GPU、NVLink 6 交换机、ConnectX-9 SuperNIC、BlueField-4 DPU 以及 Spectrum-6 以太网交换机。这六款芯片经历了同步开发与协同验证,而非独立设计后拼接。这种“全栈同时迭代”的策略,在技术上是为了拆除计算、存储、网络之间的长期性能断层;在商业上则是为了构筑一个比 Blackwell 时代更深的进入壁垒——潜在的竞争对手不仅需要攻克 GPU 设计,还需要在 CPU、互联、网卡、DPU、交换芯片等多个维度同时跟上。
100% 全液冷方案是另一个值得关注的技术选择。Vera Rubin NVL72 的单机柜功率约为 440 千瓦,运行 PUE 约 1.1,进水温度可达 45 摄氏度。作为对比,Blackwell NVL72 采用的是部分液冷方案,PUE 约 1.25。这一差异在单机柜层面看似不大,但当部署规模扩展至千机柜级别时,PUE 从 1.25 降至 1.1 所节省的电力成本和散热基础设施投入将是可观的。这也解释了为什么 CoreWeave 为 Vera Rubin 部署专门研发了 Valvey(可编程机架级液冷阀门组件)和 Racky(统一机架控制设备)——液冷正在从“可选方案”变成“必备基础设施”。
一个需要关注的供应链约束是:Vera Rubin 的全液冷方案和六款芯片的协同依赖意味着量产面临多重供应瓶颈。HBM4 内存目前由三星电子和 SK 海力士主导供应,散热组件的产能爬坡速度、各系统组件之间的同步交付节奏,都可能对 Vera Rubin 的市场渗透速度形成压制。
推理成本降至十分之一:正在改写 AI 应用的经济账
Vera Rubin NVL72 所有技术参数中,最具有经济学意义的一组数字是:相比 Blackwell,每百万 token 推理成本降至约十分之一,每瓦推理性能提升最高达 10 倍,完成同等推理负载所需的 GPU 数量最多减少四分之三。
这组数字的来源是三个技术层面的叠加:3 nm 制程带来的晶体管密度提升(336 亿晶体管,比 Blackwell 增加约 60%),HBM4 带来的内存带宽倍增,以及第六代 NVLink 将 GPU 间通信瓶颈压缩至更低水平。但更重要的是,推理成本的下降正在将一批此前因经济账算不过来而被长期搁置的应用场景推向可行性区间。
以实时智能体(autonomous agent)为例,当 AI 不再是用户主动触发的一次性推理,而是持续运行、主动决策的常态服务,每百万 token 的成本将直接决定商业模式能否成立。同样的逻辑适用于百万 token 级上下文推理——整本书籍分析、长时间会议纪要、全量代码库理解,这些场景的单次请求 token 消耗量极大,成本下降一个数量级意味着产品形态可以从“演示级”进入“规模化级”。
TrendForce 数据显示,2026 年北美五大 CSP 的 AI 推理算力预计增长 122%,而训练算力增长仅为 56%。推理增速是训练的两倍以上。这一结构性变化意味着:Vera Rubin 针对推理端的性能优化具有高度现实的商业指向性,而非单纯的技术炫技。
云部署的先行信号:CoreWeave 首发与产业链传导效应
CoreWeave 在 Vera Rubin 量产当日即宣布完成云端部署,这一时间节点的密集程度值得拆解。它指向几个同时成立的事实:硬件供应链的提前交付、软件栈与运维体系的同步就绪,以及 CoreWeave 与英伟达之间极高的战略协同深度。
一个必须正视的叙事真实性问题是:CoreWeave 宣称的“首家”在行业内存在一定争议。微软在 2026 年 3 月已表示其是首个在云端完成 Vera Rubin NVL72 系统验证的超大规模云服务商(用于 validation 目的)。“首家部署”与“首家用于验证”之间的口径差异,反映了 AI 基础设施竞争中“首发”叙事的复杂性。这类声明的认定标准在不同主体之间存在可讨论的空间。
从产业链角度看,CoreWeave 的 Vera Rubin 部署基于戴尔科技打造的 PowerEdge XE9812 液冷服务器,同时网络架构同时支持 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太网,通过多轨多平面 RoCE 架构为每颗 GPU 提供 1.6 Tb/s 的后端带宽。这意味着 Vera Rubin 的生态准备已经超出了单一厂商的范畴,形成了从服务器 OEM 到网络设备的多层协同。
CoreWeave 将于 2026 年 6 月 27 日正式被纳入 Russell 3000 指数。截至 2026 年 3 月 31 日,英伟达持有 CoreWeave 约 11% 的股权。据 FactSet 调查数据,31 位分析师对 CoreWeave 的 2026 年营收预测中位数约为 125.89 亿美元,远期 2029 年营收预测中位数约为 504.58 亿美元。这一营收增长预期与 Vera Rubin 的算力供给能力之间存在高度相关性——新一代架构的部署进度将直接影响 CoreWeave 的产能扩张和收入兑现。
行业影响的多情境演化:从推理成本下降到算力组织重构
将 Vera Rubin NVL72 的推出置于更宏观的行业版图中,可以发现三条相互关联的演化路径正在同时展开。
第一条是算力供需结构的演化。计算需求的增长曲线正在从“训练驱动”转向“推理驱动”。Agentic AI 对持续运行、低延迟、高吞吐量的需求,正在将算力诉求从少数几个超大训练集群扩展至分布式的推理基础设施网络。Supermicro 发布的 Vera Rubin 数据中心蓝图(支持从 5 兆瓦扩展至 1 吉瓦)恰恰回应了这一变化——算力供给不再需要被超大规模数据中心垄断,中等规模的 AI 工厂同样可以经济性地部署顶级算力。
第二条是行业竞争格局的重构。六款芯片同时迭代意味着英伟达正在系统性构筑进入壁垒。对于潜在的竞争对手而言,单纯攻克 GPU 设计只是第一步,还需要同步解决 CPU、互联、DPU、网卡、交换芯片等多个组件的协同优化问题。这一技术栈的复杂度和深度正在呈指数级增长,也对现有竞争者构成了日益加重的追赶压力。
第三条是 AI 应用的商业化条件变化。推理成本的下降可能使一批此前因经济账不可行而被搁置的应用场景进入可行性区间,尤其对于那些需要长期、持续运行 AI 工作负载的场景而言。然而需要注意的是,这一传导链条并非自动发生——软件开发栈的适配、模型架构对新一代硬件的利用率、以及云服务商的定价策略,都会影响推理成本下降的红利最终能否被应用层充分吸收。
在情境推演层面,基准情境(概率权重较高)是推理成本沿可预期的轨道线性下降,推动 AI 应用端的成本结构持续优化,2027 年至 2028 年间出现系统性改善。激进情境(概率权重中等)是推理成本下降趋势被市场提前定价,算力采购决策标准从“峰值性能”全面转向“每瓦 token 吞吐量”和“每百万 token 成本”,机柜取代服务器成为最小计算单元,率先完成系统级适配的云服务商获得明显先发优势。风险情境(概率权重较低但不可忽视)是量产节奏或供应链稳定性出现挑战——HBM4 供应、散热组件产能、六款芯片同步交付,任一环节延迟都将对市场渗透速度形成压制。
结语
Vera Rubin NVL72 的推出正在推动 AI 算力的竞争逻辑从“芯片迭代”向“系统集成”演进。六芯协同架构、机柜即计算机的设计理念、以及推理成本下降一个数量级的经济学变化,共同构成了这一轮算力革命的核心驱动力。Blackwell 开启了机柜级计算的时代窗口,Vera Rubin 则试图将这个窗口推向更极致的深度——不仅仅是更快的 GPU,而是重新定义 AI 算力的组织方式、部署密度和定价基准。
对于市场参与者而言,关键的观察变量不再是“下一代 GPU 有多快”,而是“推理成本下降的红利将以多快的速度传导至应用层”,以及“算力组织方式的变化将在多大程度上重构数据中心的设计逻辑和云服务商的竞争格局”。Vera Rubin NVL72 的全产业链协同验证正在给出初步答案,但大规模部署后的实际能效表现、供应链的稳定节奏、以及下游需求的消化能力,仍需要持续跟踪。
FAQ
Vera Rubin NVL72 相比 Blackwell 的核心提升在哪里
Vera Rubin NVL72 机柜推理算力达到 3.6 EFLOPS,是 Blackwell NVL72(1.44 EFLOPS)的 2.5 倍,每百万 token 推理成本降至约十分之一。
为什么 Vera Rubin 的训练算力提升幅度(3.5 倍)低于推理算力提升幅度(5 倍)
这一差异反映了英伟达对行业趋势的战略判断——推理负载增速已全面超越训练,新一代架构针对推理场景进行了更强力度的优化。
CoreWeave 成为 Vera Rubin 首家云部署厂商意味着什么
CoreWeave 与英伟达在工程层面的协同深度远超传统供需关系,其首发部署验证了 Vera Rubin 软件栈与运维体系的同步就绪状态。
100% 全液冷方案对数据中心意味着什么
Vera Rubin NVL72 全液冷方案将 PUE 从 Blackwell 的约 1.25 降至约 1.1,在千机柜级部署规模下可显著节省电力成本与散热基础设施投入。
Vera Rubin 的量产面临哪些供应链风险
HBM4 内存由三星电子和 SK 海力士主导供应,散热组件产能爬坡速度以及六款芯片的同步交付节奏,都可能对市场渗透速度形成压制。
推理成本下降一个数量级会催生哪些新应用场景
实时智能体的持续运行、百万 token 级长上下文推理、以及大规模分布式推理部署,此前因 token 累积成本过高而难以商业化,成本下降后经济可行性将显著改善。
CoreWeave 纳入 Russell 3000 指数会产生什么影响
纳入 Russell 3000 指数将带来被动 ETF 的配置需求,同时提升 CoreWeave 在机构投资者中的可及性和流动性。
Vera Rubin 架构是否改变了 AI 基础设施的投资逻辑
投资逻辑正在从“单卡性能竞赛”转向“系统级效率竞赛”,机柜级算力密度、每瓦 token 吞吐量和每百万 token 成本成为更核心的评估指标。




