2026年6月1日,NVIDIA於GTC台北大會宣布Vera Rubin平台正式進入全面量產。同日,AI雲端服務商CoreWeave成為業界首家完成Vera Rubin NVL72雲端部署並驗證上線的廠商,股價當日收於124.82美元,漲幅13.96%,成交量較三個月均值高出約90%。這兩則消息在同一時間窗口出現並非偶然——它標誌著AI算力供給側又一次代際躍遷,正式從實驗室走入量產環境。
若僅將Vera Rubin NVL72視為一次單純的晶片升級,將嚴重低估其對產業的意義。這場代際更迭真正觸及的核心問題是:當模型參數突破萬億、推理負載增速全面超越訓練、Agentic AI要求毫秒級回應時,算力究竟應以何種組織方式部署、消耗與定價?Blackwell開啟了機櫃級計算的時代,Vera Rubin則試圖將這一方向推向極致——以六款同步迭代的晶片、一個100%液冷的緊湊機櫃,以及推理成本壓縮一個數量級,重新劃定AI基礎設施的效率邊界。
從晶片迭代到系統整合:Vera Rubin改變了哪些競爭維度
傳統GPU代際更迭的敘事邏輯通常是「製程進步—晶體管增加—算力提升—功耗降低」的線性鏈條。Vera Rubin NVL72打破了這一敘事。它不再以單顆GPU為核心賣點,而是將整個機櫃定義為AI超級電腦的最小交付單元。
Vera Rubin NVL72每機櫃集成72顆Rubin GPU與36顆Vera CPU,透過第六代NVLink提供260 TB/s的機櫃級Scale-up總帶寬。NVIDIA方面表示,這一帶寬量已超越全球網際網路總流量。系統採用100%全液冷方案,安裝時間由傳統架構的兩小時縮短至五分鐘。這些參數背後的真實變化是:算力競爭的核心指標正從「單卡TFLOPS」轉向「機櫃級系統效率」。
Blackwell NVL72已經展現機櫃級計算的可能性——1.44 EFLOPS推理算力、130 TB/s內聯帶寬、部分液冷方案。Vera Rubin NVL72則將這一概念向前推進關鍵一步:推理算力提升至3.6 EFLOPS(2.5倍),訓練算力從10 PFLOPS躍升至35 PFLOPS(3.5倍),GPU記憶體從HBM3e升級為HBM4,容量從141 GB翻倍至288 GB,帶寬從約8 TB/s提升至約22 TB/s。這些數字疊加的結果並非簡單的「性能翻倍」,而是系統性的效率重構。尤其值得注意的是,推理算力的提升幅度(5倍)顯著高於訓練算力(3.5倍)。這一差異化設計指向一個明確的產業判斷:推理正取代訓練,成為AI算力消耗的主戰場。
六晶片協同與全液冷:技術選擇背後的供應鏈與成本邏輯
Vera Rubin NVL72在晶片層面的動作並非單顆GPU升級,而是涉及六款全新設計的晶片:Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU,以及Spectrum-6乙太網交換機。這六款晶片經歷同步開發與協同驗證,而非獨立設計後拼接。這種「全堆疊同時迭代」策略,在技術上是為了拆除運算、儲存、網路間的長期效能斷層;在商業上則是為了構築比Blackwell時代更深的進入門檻——潛在競爭者不僅需攻克GPU設計,還必須在CPU、互聯、網卡、DPU、交換晶片等多個層面同步跟進。
100%全液冷方案是另一個值得關注的技術選擇。Vera Rubin NVL72單機櫃功率約440千瓦,運行PUE約1.1,進水溫度可達45攝氏度。作為對比,Blackwell NVL72採用部分液冷方案,PUE約1.25。這一差異在單機櫃層面看似不大,但當部署規模擴展至千機櫃級時,PUE從1.25降至1.1所節省的電力成本與散熱基礎設施投入將極為可觀。這也解釋了為何CoreWeave為Vera Rubin部署專門研發了Valvey(可程式機架級液冷閥門元件)與Racky(統一機架控制設備)——液冷正從「可選方案」變成「必備基礎設施」。
一項需關注的供應鏈約束是:Vera Rubin的全液冷方案與六款晶片協同依賴,意味量產面臨多重供應瓶頸。HBM4記憶體目前由三星電子與SK海力士主導供應,散熱元件產能爬坡速度、各系統元件間的同步交付節奏,都可能對Vera Rubin的市場滲透速度形成壓制。
推理成本降至十分之一:正在改寫AI應用的經濟帳
Vera Rubin NVL72所有技術參數中,最具經濟學意義的一組數字是:相較Blackwell,每百萬token推理成本降至約十分之一,每瓦推理效能提升最高達10倍,完成同等推理負載所需GPU數量最多減少四分之三。
這組數字的來源是三個技術層面的疊加:3奈米製程帶來的晶體管密度提升(336億晶體管,比Blackwell增加約60%)、HBM4帶來的記憶體帶寬倍增,以及第六代NVLink將GPU間通訊瓶頸壓縮至更低水準。但更重要的是,推理成本的下降正將一批過去因經濟帳算不過而長期擱置的應用場景推向可行性區間。
以即時智能體(autonomous agent)為例,當AI不再是用戶主動觸發的一次性推理,而是持續運行、主動決策的常態服務,每百萬token的成本將直接決定商業模式能否成立。同樣邏輯適用於百萬token級上下文推理——整本書籍分析、長時間會議紀錄、全量程式碼庫理解,這些場景單次請求token消耗量極大,成本下降一個數量級意味產品形態可從「展示級」進入「規模化級」。
TrendForce資料顯示,2026年北美五大CSP的AI推理算力預計增長122%,而訓練算力增長僅56%。推理增速是訓練的兩倍以上。這一結構性變化意味:Vera Rubin針對推理端的效能優化具有高度現實的商業指向性,而非單純的技術炫技。
雲端部署的先行信號:CoreWeave首發與產業鏈傳導效應
CoreWeave於Vera Rubin量產當日即宣布完成雲端部署,這一時間點的密集程度值得拆解。它指向幾個同時成立的事實:硬體供應鏈提前交付、軟體堆疊與運維體系同步就緒,以及CoreWeave與NVIDIA間極高的策略協同深度。
一項必須正視的敘事真實性問題是:CoreWeave宣稱的「首家」在業界存在一定爭議。微軟於2026年3月已表示其是首個在雲端完成Vera Rubin NVL72系統驗證的超大規模雲端服務商(用於validation目的)。「首家部署」與「首家驗證」之間的口徑差異,反映了AI基礎設施競爭中「首發」敘事的複雜性。這類聲明的認定標準在不同主體間存在討論空間。
從產業鏈角度看,CoreWeave的Vera Rubin部署基於戴爾科技打造的PowerEdge XE9812液冷伺服器,同時網路架構支援NVIDIA Quantum-X800 InfiniBand與Spectrum-X乙太網,透過多軌多平面RoCE架構為每顆GPU提供1.6 Tb/s的後端帶寬。這意味Vera Rubin的生態準備已超出單一廠商範疇,形成從伺服器OEM到網路設備的多層協同。
CoreWeave將於2026年6月27日正式納入Russell 3000指數。截至2026年3月31日,NVIDIA持有CoreWeave約11%股權。據FactSet調查資料,31位分析師對CoreWeave的2026年營收預測中位數約為125.89億美元,遠期2029年營收預測中位數約為504.58億美元。這一營收增長預期與Vera Rubin的算力供給能力高度相關——新一代架構的部署進度將直接影響CoreWeave的產能擴張與收入兌現。
行業影響的多情境演化:從推理成本下降到算力組織重構
將Vera Rubin NVL72的推出置於更宏觀的產業版圖,可以發現三條相互關聯的演化路徑正同時展開。
第一條是算力供需結構的演化。運算需求的增長曲線正從「訓練驅動」轉向「推理驅動」。Agentic AI對持續運行、低延遲、高吞吐量的需求,正將算力訴求從少數幾個超大訓練集群擴展至分布式推理基礎設施網路。Supermicro發布的Vera Rubin資料中心藍圖(支援從5兆瓦擴展至1吉瓦)正好回應這一變化——算力供給不再需被超大規模資料中心壟斷,中等規模AI工廠同樣可經濟性部署頂級算力。
第二條是產業競爭格局的重構。六款晶片同時迭代意味NVIDIA正系統性構築進入門檻。對潛在競爭者而言,單純攻克GPU設計只是第一步,還需同步解決CPU、互聯、DPU、網卡、交換晶片等多個元件的協同優化問題。這一技術堆疊的複雜度與深度正呈指數級增長,也對現有競爭者構成日益加重的追趕壓力。
第三條是AI應用的商業化條件變化。推理成本下降可能使一批過去因經濟帳不可行而被擱置的應用場景進入可行性區間,尤其對那些需長期、持續運行AI工作負載的場景而言。然而需注意的是,這一傳導鏈條並非自動發生——軟體開發堆疊的適配、模型架構對新一代硬體的利用率,以及雲端服務商的定價策略,都會影響推理成本下降紅利能否被應用層充分吸收。
在情境推演層面,基準情境(機率權重較高)是推理成本沿可預期軌道線性下降,推動AI應用端成本結構持續優化,2027年至2028年間出現系統性改善。激進情境(機率權重中等)是推理成本下降趨勢被市場提前定價,算力採購決策標準從「峰值效能」全面轉向「每瓦token吞吐量」與「每百萬token成本」,機櫃取代伺服器成為最小計算單元,率先完成系統級適配的雲端服務商取得明顯先發優勢。風險情境(機率權重較低但不可忽視)是量產節奏或供應鏈穩定性出現挑戰——HBM4供應、散熱元件產能、六款晶片同步交付,任一環節延遲都將對市場滲透速度形成壓制。
結語
Vera Rubin NVL72的推出正推動AI算力競爭邏輯從「晶片迭代」向「系統整合」演進。六晶片協同架構、機櫃即電腦的設計理念,以及推理成本下降一個數量級的經濟學變化,共同構成這一輪算力革命的核心驅動力。Blackwell開啟機櫃級計算的時代窗口,Vera Rubin則試圖將這個窗口推向更極致的深度——不僅僅是更快的GPU,而是重新定義AI算力的組織方式、部署密度與定價基準。
對市場參與者而言,關鍵觀察變數不再是「下一代GPU有多快」,而是「推理成本下降紅利將以多快速度傳導至應用層」,以及「算力組織方式的變化將在多大程度上重構資料中心設計邏輯與雲端服務商競爭格局」。Vera Rubin NVL72的全產業鏈協同驗證正給出初步答案,但大規模部署後的實際能效表現、供應鏈穩定節奏,以及下游需求消化能力,仍需持續追蹤。
FAQ
Vera Rubin NVL72相比Blackwell的核心提升在哪裡
Vera Rubin NVL72機櫃推理算力達到3.6 EFLOPS,是Blackwell NVL72(1.44 EFLOPS)的2.5倍,每百萬token推理成本降至約十分之一。
為什麼Vera Rubin的訓練算力提升幅度(3.5倍)低於推理算力提升幅度(5倍)
這一差異反映NVIDIA對產業趨勢的策略判斷——推理負載增速已全面超越訓練,新一代架構針對推理場景進行更強力度優化。
CoreWeave成為Vera Rubin首家雲端部署廠商意味什麼
CoreWeave與NVIDIA在工程層面的協同深度遠超傳統供需關係,其首發部署驗證了Vera Rubin軟體堆疊與運維體系的同步就緒狀態。
100%全液冷方案對資料中心意味什麼
Vera Rubin NVL72全液冷方案將PUE從Blackwell的約1.25降至約1.1,在千機櫃級部署規模下可顯著節省電力成本與散熱基礎設施投入。
Vera Rubin的量產面臨哪些供應鏈風險
HBM4記憶體由三星電子與SK海力士主導供應,散熱元件產能爬坡速度以及六款晶片同步交付節奏,都可能對市場滲透速度形成壓制。
推理成本下降一個數量級會催生哪些新應用場景
即時智能體的持續運行、百萬token級長上下文推理,以及大規模分布式推理部署,過去因token累積成本過高難以商業化,成本下降後經濟可行性將顯著改善。
CoreWeave納入Russell 3000指數會產生什麼影響
納入Russell 3000指數將帶來被動ETF的配置需求,同時提升CoreWeave於機構投資者間的可及性與流動性。
Vera Rubin架構是否改變了AI基礎設施的投資邏輯
投資邏輯正從「單卡效能競賽」轉向「系統級效率競賽」,機櫃級算力密度、每瓦token吞吐量與每百萬token成本成為更核心的評估指標。




