top of page

Blackwell 架構深度解析:NVIDIA 如何透過先進封裝與 HBM3E 再造 AI 巔峰?

  • 作家相片: Amiee
    Amiee
  • 4月27日
  • 讀畢需時 10 分鐘

人工智慧的浪潮正以驚人的速度席捲全球,從大型語言模型到科學計算,對算力的渴求似乎永無止境;然而,傳統的單晶片設計逐漸逼近物理極限,摩爾定律的步伐亦顯蹣跚;面對挑戰,NVIDIA 給出的答案並非僅僅是製程的微縮,而是一場更為深刻的變革——以 Blackwell 架構為核心的封裝革命。


這不僅是又一代 GPU 的升級,更是對晶片設計、製造與互連方式的重新思考;Blackwell 的誕生,預示著一個透過先進封裝技術將多個晶片「組合」起來,以突破單晶片限制的時代正在加速到來;無論您是想了解最新科技趨勢的愛好者,希望弄清楚 Blackwell 為何如此重要;還是尋求深入技術細節的專業人士,渴望探究其背後的原理與挑戰;本文都將為您從基礎概念到核心技術,層層揭開 Blackwell 的神秘面紗,探索其如何藉由 CoWoS-L 封裝與 HBM3E 記憶體等關鍵技術,再次定義 AI 運算的極限。


NVIDIA Blackwell 架構,圖片來源:NVIDIA
NVIDIA Blackwell 架構,圖片來源:NVIDIA

AI 算力競賽升級,Blackwell 為何應運而生?


想像一下,AI 模型就像一個求知慾旺盛的學生,需要閱讀越來越多的書籍(數據)來學習;而 GPU 就是幫助學生快速閱讀和理解的大腦;隨著 AI 模型變得越來越複雜、需要處理的數據量越來越龐大(例如從數十億參數進化到數兆參數),單一大腦(單一 GPU 晶片)的處理能力開始跟不上。


主要原因有二:


  1. 晶片尺寸的物理極限(Reticle Limit): 晶片是透過光刻技術在矽晶圓上製造出來的;光刻機的曝光範圍(稱為光罩或標線片 Reticle)有其物理尺寸上限;想製造一個遠超此上限的巨大單一晶片,在現有技術下極其困難且成本高昂。


  2. 良率問題: 晶片越大,包含缺陷的機率就越高;一個微小的缺陷就可能導致整個巨大晶片報廢,良率大幅下降,成本飆升。


Hopper 架構雖然強大,但在面對下一代 AI 模型的需求時,依然會遇到這些瓶頸;為了持續提升算力,NVIDIA 必須找到新的方法;Blackwell 的核心思路就是:既然單一大晶片難做,那就把兩個(或更多)功能強大的「小」晶片(Die)緊密地連接在一起,讓它們像一個統一的、更強大的晶片一樣工作;這就是所謂的多晶片模組(Multi-Chip Module, MCM)設計,而實現這種設計的關鍵,就在於先進的封裝技術。



從單晶到雙晶:Blackwell 架構的核心變革


Blackwell 架構最引人注目的變化,就是從 Hopper 的單一 GPU 晶片設計,轉變為雙 GPU 晶片的設計(以 B200 GPU 為例);這兩個獨立製造的 GPU 晶片,透過一種超高速的內部互連技術緊密結合。


這種設計帶來的好處顯而易見:


  • 突破尺寸限制: 兩個較小的晶片更容易製造,避開了單一巨大晶片的 Reticle Limit 問題。

  • 提高良率: 即使其中一個小晶片有缺陷,也只會損失該晶片,而不是整個(假設的)巨大單晶片;更容易篩選出合格的晶片進行組合。

  • 潛在的成本效益: 在達到一定規模後,製造兩個較小晶片再組合的成本可能低於製造一個同等效能的巨大單晶片。


然而,要讓兩個獨立的晶片像一個整體般高效運作,它們之間的「溝通橋樑」必須極其快速且低延遲;這就引出了 Blackwell 的另一個關鍵技術:NVLink-C2C(Chip-to-Chip);這是一種專為晶片間互連設計的高速介面,提供了高達 10 TB/s 的驚人頻寬,確保兩個 Blackwell GPU 晶片之間數據傳輸暢通無阻,協同工作時就像一個統一的處理單元。



封裝的藝術:CoWoS-L 如何串聯 Blackwell 雙雄?


僅有高速的晶片間互連還不夠,如何將這兩個 GPU 晶片以及它們所需的 高頻寬記憶體(HBM)物理上地「安裝」在一起,並提供所有必要的連接,是 Blackwell 成功的基石;這就是台積電(TSMC)的 CoWoS-L(Chip-on-Wafer-on-Substrate with Local Silicon Interconnect)先進封裝技術發揮作用的地方。


我們可以將 CoWoS-L 想像成一個高度複雜的「轉接板」或「中介層」(Interposer):


  • Chip-on-Wafer (CoW): 首先,GPU 晶片和 HBM 記憶體被精密地放置(貼裝)在這個特殊的中介層上。


  • Local Silicon Interconnect (L): CoWoS-L 的特別之處在於,它在中介層中嵌入了小塊的矽橋(Silicon Bridge),這些矽橋提供了極高密度的連接線路;正是透過這些矽橋,實現了兩個 Blackwell GPU Die 之間以及 GPU Die 與 HBM 記憶體之間超高頻寬、低延遲的連接;相較於傳統的有機中介層,矽橋能容納更細、更密的導線,傳輸速度更快、功耗更低。


  • on-Substrate (oS): 最後,這個承載著晶片和 HBM 的中介層,會被安裝到一個傳統的封裝基板(Substrate)上,再連接到外部的印刷電路板(PCB)。


CoWoS-L 使得 Blackwell 的雙晶片設計得以實現,它提供了一個平台,不僅能容納兩個巨大的 GPU 晶片(每個晶片本身已接近 Reticle Limit),還能整合多達八顆 HBM3E 記憶體堆疊,並確保它們之間擁有前所未有的數據傳輸能力;可以說,沒有 CoWoS-L 這樣的先進封裝技術,Blackwell 的宏偉藍圖就無法落地。



記憶體瓶頸的解方:HBM3E 的關鍵角色


對於 AI 運算而言,GPU 的計算能力固然重要,但能否及時、快速地餵給 GPU 足夠的數據同樣關鍵;記憶體頻寬(Memory Bandwidth)——即 GPU 與其專用記憶體之間數據傳輸的速率——往往是決定實際效能的重要瓶頸。


Blackwell 架構搭配了目前最快的 高頻寬記憶體 技術:HBM3E;


  • HBM (High Bandwidth Memory): 這是一種 3D 堆疊記憶體技術;想像一下,不是把記憶體晶片平鋪在主機板上,而是像蓋樓一樣把它們垂直堆疊起來,並透過稱為「矽穿孔」(Through-Silicon Via, TSV)的垂直通道直接連接;這大大縮短了數據傳輸的路徑,提高了頻寬並降低了功耗。


  • HBM3E: 這是 HBM3 的增強版("E" 代表 Evolved 或 Extended),提供了更高的傳輸速率和更大的單堆疊容量。


在 Blackwell B200 GPU 中,每個 GPU 晶片旁邊都圍繞著四顆 HBM3E 記憶體堆疊,總共八顆;這使其總記憶體容量達到 192GB,更重要的是,提供了高達 8 TB/s 的驚人記憶體頻寬;相比之下,上一代 Hopper H100 的 HBM3 頻寬約為 3.35 TB/s。


如此高的記憶體頻寬對於訓練參數規模達到數兆級別的大型語言模型至關重要;它能更快地將模型參數和訓練數據載入 GPU,減少等待時間,大幅提升訓練效率;對於需要處理海量數據的推論(Inference)應用,高頻寬同樣能顯著降低延遲。



超越晶片:第五代 NVLink 與 NVLink Switch 的系統級互連


雖然 Blackwell GPU 本身極其強大,但現代超大規模 AI 模型的訓練往往需要數百甚至數千個 GPU 協同工作;如何讓這些 GPU 高效地連接成一個龐大的運算集群,是另一個關鍵挑戰。

NVIDIA 為此推出了第五代 NVLink 技術和全新的 NVLink Switch 晶片。


  • 第五代 NVLink: 提供每個 Blackwell GPU 高達 1.8 TB/s 的雙向頻寬,用於 GPU 之間的直接互連;這比上一代 Hopper 的 900 GB/s 翻了一倍。


  • NVLink Switch 晶片: 這是一個獨立的、專門用於連接大量 GPU 的交換晶片;它本身也採用了先進製程,內建了大量 NVLink 連接埠;透過 NVLink Switch,可以構建一個高頻寬、低延遲的交換網路(Fabric),將多達 576 個 Blackwell GPU 連接成一個統一的運算域(NVLink Domain),讓它們像一個超巨型的 GPU 一樣協調工作,無需經過傳統的、速度較慢的乙太網路或 InfiniBand 交換機(儘管後者仍然用於連接不同的 NVLink Domain)。


這種系統級的互連設計,對於支援超大規模模型的分散式訓練至關重要,能夠有效減少通訊開銷,提升整體集群的運算效率。



不只 GPU:Grace Blackwell 超級晶片的融合之力


NVIDIA 並未止步於單純的 Blackwell GPU;他們還推出了 Grace Blackwell 超級晶片(GB200),延續了 Grace Hopper(GH200)的設計理念,將 CPU 和 GPU 更緊密地結合在一起。


GB200 將一顆基於 Arm 架構的 Grace CPU 與兩顆 Blackwell B200 GPU 透過超高速的 NVLink-C2C 介面連接在同一個模組上:


  • 共享記憶體空間的潛力: Grace CPU 和 Blackwell GPU 可以存取統一的記憶體池(雖然物理上仍有 CPU 的 DDR5/LPDDR5X 和 GPU 的 HBM3E),簡化了程式設計模型,並可能減少數據在 CPU 和 GPU 之間來回複製的需求,尤其是在處理需要大量 CPU 預處理或後處理的複雜工作負載時。


  • 針對特定應用的優勢: 對於大型推論、大型資料庫查詢、推薦系統等需要 CPU 和 GPU 緊密協作的場景,GB200 提供了極高的頻寬和低延遲的連接,有望帶來顯著的效能提升。


GB200 Superchip 是 NVIDIA 對於未來異構運算(CPU + GPU 協同工作)發展方向的具體實踐,旨在提供一個更整合、更高效的平台。




效能躍進與能效挑戰


根據 NVIDIA 官方數據,Blackwell 架構在 AI 訓練和推論方面實現了顯著的效能提升;例如,在 GPT-MoE-1.8T 這樣的大模型訓練上,據稱 Blackwell 比 Hopper 快 4 倍;在推論方面,速度提升可達 7 倍甚至更高(尤其是在採用新的 FP4/FP6 數字格式時)。

然而,強大的效能也伴隨著巨大的功耗;單個 B200 GPU 的熱設計功耗(TDP)據報導高達 1200W,遠超 H100 的 700W;一個包含 8 個 B200 GPU 的 HGX B200 伺服器總功耗可能超過 10kW;而基於 GB200 的機櫃(如 NVL72)更是達到了驚人的 120kW。

如此高的功耗對數據中心的散熱(液冷成為必需)、供電基礎設施提出了嚴峻的挑戰;能效(Performance per Watt)雖然據稱有所提升,但絕對功耗的增加仍然是一個需要業界共同面對和解決的問題。



Blackwell 與 Hopper 關鍵規格比較

特性

NVIDIA B200 (Blackwell)

NVIDIA H100/H200 (Hopper)

架構設計

雙晶片 MCM (Multi-Chip Module)

單晶片

製程節點

TSMC 4NP (客製化 4nm)

TSMC 4N (客製化 5nm)

電晶體數量

2 x 1040 億 = 2080 億

800 億 (H100) / N/A (H200 Chip)

GPU 數量/Die

2

1

記憶體類型

HBM3E

HBM3 (H100) / HBM3E (H200)

記憶體容量

192 GB

80 GB (H100) / 141 GB (H200)

記憶體頻寬

8 TB/s

3.35 TB/s (H100) / 4.8 TB/s (H200)

NVLink (GPU間)

第五代, 1.8 TB/s

第四代, 900 GB/s

NVLink (C2C)

10 TB/s (晶片內部)

N/A

單 GPU TDP

高達 1200W

高達 700W

AI 運算效能

數倍於 Hopper (特定任務)

(基準)

封裝技術

CoWoS-L

CoWoS-S

注意:部分數據可能因不同產品型號而略有差異;效能提升依賴具體應用和軟體優化



製造挑戰與生態系影響


Blackwell 的雄心壯志也帶來了巨大的製造挑戰;


  • CoWoS-L 產能與良率: CoWoS-L 是極其複雜且昂貴的封裝技術;確保足夠的產能和高良率是台積電面臨的巨大壓力;其產能直接限制了 Blackwell GPU 的出貨量。

  • HBM3E 供應: 高速、高容量的 HBM3E 同樣是稀缺資源,SK 海力士、三星、美光等記憶體大廠正在努力擴充產能以滿足需求。

  • 供應鏈整合: 從晶片製造、HBM 生產到最終的 CoWoS-L 封裝,需要供應鏈各環節的緊密協作和同步。

  • 測試複雜性: 測試一個包含兩個 GPU 晶片和八個 HBM 堆疊的複雜模組,比測試單晶片 GPU 要困難得多。


Blackwell 的推出不僅鞏固了 NVIDIA 在 AI 硬體領域的領導地位,也對整個生態系產生深遠影響;它推動了先進封裝技術的發展和普及,刺激了 HBM 記憶體的創新和擴產,並迫使競爭對手(如 AMD、Intel 及各大雲端服務商的自研晶片)加速追趕;同時,其驚人的功耗也推動著數據中心基礎設施(特別是散熱技術)的變革。




未來展望:Blackwell 之後的 AI 硬體版圖


Blackwell 架構代表了當前透過先進封裝技術突破單晶片極限的最高成就;它清晰地指明了未來高性能運算晶片的發展方向:從追求單一巨大晶片轉向多晶片智慧整合。

我們可以預見:


  • Chiplet(小晶片)生態系的成熟: 類似 Blackwell 的 MCM 設計將越來越普遍;未來可能出現更靈活的 Chiplet 設計,允許客戶根據需求組合不同的功能單元(CPU、GPU、AI 加速器、I/O 等)。

  • 封裝技術持續進化: CoWoS 之後,更先進的 3D 堆疊封裝技術(例如直接將晶片堆疊在一起)可能會出現,進一步縮短互連距離,提升效能。

  • 光學互連的興起: 當電氣互連達到瓶頸時,使用光訊號進行晶片間或系統間的超高速數據傳輸,可能成為下一代解決方案。

  • 軟硬體協同設計: 為了充分發揮複雜硬體的潛力,軟體(如 CUDA 平台)需要與硬體架構更緊密地協同設計和優化。


Blackwell 不是終點,而是 AI 硬體新紀元的開端;它展示了透過系統性的創新——結合先進製程、架構設計、記憶體技術、互連技術和革命性的封裝方案——人類依然可以在看似不可逾越的物理限制面前,不斷拓展運算的邊界。



結論


NVIDIA Blackwell 架構不僅僅是一次常規的 GPU 升級,它是一場由先進封裝技術引領的革命;透過將兩個性能強勁的 GPU 晶片與高速 HBM3E 記憶體,藉由 CoWoS-L 封裝技術巧妙地整合在一起,Blackwell 成功突破了單晶片的物理限制,為 AI 訓練和推論帶來了前所未有的算力飛躍;從雙晶片 MCM 設計、10 TB/s 的 NVLink-C2C 互連,到 8 TB/s 的 HBM3E 記憶體頻寬,再到系統級的第五代 NVLink 和 NVLink Switch,每一個環節都體現了對極致效能的追求。


Blackwell 的故事展示了工程師們如何透過聰明的「組合」方式,繞過傳統限制,持續推動技術進步,滿足 AI 時代對算力的巨大需求;Blackwell 的設計細節、採用的 CoWoS-L 和 HBM3E 等前沿技術、以及其對製造、功耗和生態系帶來的挑戰與機遇,都提供了寶貴的參考與啟示。


儘管面臨功耗和製造複雜性的挑戰,Blackwell 無疑為下一代 AI 硬體的發展定下了新的標竿,預示著一個由多晶片整合與先進封裝主導的新時代。




Subscribe to AmiNext Newsletter

Thanks for submitting!

  • LinkedIn
  • Facebook

© 2024 by AmiNext 金融與科技筆記

bottom of page