top of page

【科技速解】AI 的「退燒藥」:從液冷到浸沒式,解密資料中心散熱的終極戰爭

  • 作家相片: Sonya
    Sonya
  • 10月5日
  • 讀畢需時 6 分鐘

秒懂重點:為什麼你現在非懂不可?


AI 晶片在變得越來越聰明的同時,也變成了史上最燙的「超級電暖器」,一個裝滿最新 NVIDIA GPU 的伺服器機櫃,功耗輕易突破 100,000 瓦,這相當於 30 戶家庭的冷氣同時運轉,用傳統的「風扇」去吹,就像拿一支小電扇去吹一座正在噴發的火山,早已無濟於事。

這場失控的「高熱危機」,已成為限制 AI 算力繼續成長的最大物理瓶頸,為此,「液體散熱」 已從一個小眾選項,變成了唯一的出路,這場散熱革命主要有兩條路徑:一是類似汽車水冷系統的 「直接液冷」(Direct Liquid Cooling),用液體精準帶走晶片核心的熱量;二是更極致的 「浸沒式散熱」(Immersion Cooling),將整台伺服器直接泡進不導電的冷卻液中。


這場從「風」到「水」的能源革命,不僅是確保上兆美元 AI 投資能否穩定運行的關鍵,更催生了一個高速成長的全新產業鏈。對於投資人而言,這是 AI 狂潮之下,邏輯最清晰、需求最確定的「賣鏟人」商機。


ree

技術白話文:原理解析與核心突破


過去的瓶頸:空氣的物理極限


數十年來,資料中心的散熱模式單純而穩定。我們可以把一座傳統資料中心,想像成一間擁有數千台「專業級烤箱」(伺服器)的巨大中央廚房。


  • 傳統風冷:廚房的降溫方法,是靠幾台巨大的「中央空調」(機房空調系統)強力放送冷氣,冷空氣從高架地板下的風口吹向烤箱前方,吸走熱量後,再從烤箱後方的熱通道被抽走。


這個系統在過去運作良好。但問題在於,空氣導熱的效率極差,水的導熱(或稱熱傳遞)能力,是空氣的 1,000 倍以上,當 AI 晶片讓單一「烤箱機櫃」的發熱量,從過去的 10,000 瓦,飆升到今日的 100,000 瓦時,你幾乎需要用颶風等級的風力才能勉強降溫,這不僅會消耗鉅額的風扇電力,噪音驚人,而且物理上很快就會達到極限;中央廚房,正處於集體過熱熔毀的邊緣。


它是如何運作的?


為了解決空氣的無能為力,「液體散熱」成為了唯一的救星,它主要分為兩種主流技術路徑,這兩種技術都借鑒了我們日常生活中的散熱智慧。


  1. 直接液冷 (Direct Liquid Cooling, DLC) - 「汽車水冷散熱」模式 這是目前最主流的液冷方案,與其對著整台伺服器吹風,不如直接針對最燙的幾個點(CPU、GPU)進行「精準打擊」。

    • 運作方式:在發熱量最大的晶片上方,安裝一個內部有著微小水道的「金屬散熱板」(稱為冷板 Cold Plate),接著,透過精密的管路系統,將特殊的冷卻液體泵入這個散熱板,液體流過時會吸收晶片傳來的驚人熱量,然後順著管路流到機櫃外部的「散熱交換器」(CDU,就像汽車的水箱),降溫後再循環回來。這套封閉的管路系統,高效且精準地帶走了 80% 以上的熱量。

  2. 浸沒式散熱 (Immersion Cooling) - 「逆向炸雞排」模式 這是最極致、也是散熱效率最高的終極方案,與其用管路,不如把所有東西都泡進水裡。

    • 運作方式:想像一下炸雞排,我們是把常溫的雞排,浸入高溫的油中,讓熱量快速傳遞進去,浸沒式散熱則是完全相反,它是將「高溫的雞排」(整台伺服器主機板),完全「浸沒」到一個裝滿常溫特殊冷卻液的「槽」中,這種冷卻液完全不導電,看起來像礦物油,液體會 360 度無死角地接觸到主機板上的每一個發熱元件,將熱量溫和而高效地帶走,接著,升溫的液體會被循環至外部進行冷卻。


為什麼這是革命性的?


從「風冷」到「液冷」,不僅僅是散熱介質的改變,更是對資料中心能源效率和運算密度的徹底顛覆。


  • 解鎖極限的散熱能力:液冷技術讓單一機櫃的散熱能力,從風冷的 30-40kW,一舉躍升至 100kW 甚至 200kW 以上,為下一代更強大的 AI 晶片鋪平了道路。

  • 驚人的能源節省:液冷系統省去了大量耗電的風扇,並能用更高的水溫(例如 30-40°C 的溫水)進行散熱,大幅降低了對中央空調的依賴。一座資料中心的整體能源效率指標 (PUE) 能因此改善 30-50%,每年可省下數百萬甚至上千萬的電費。

  • 更高的運算密度:由於散熱效率極高,伺服器可以更緊密地部署在一起,不再需要預留巨大的冷熱通道。這意味著在同樣的空間內,可以容納更多的運算力,最大化土地和建築的投資回報。


產業影響與競爭格局


誰是主要玩家?


這是一個由 AI 熱潮催生、正在高速成長的龐大生態系。


  1. 散熱解決方案巨頭:他們是資料中心基礎設施的傳統王者,正全力轉向液冷。

    • 維諦 (Vertiv)施耐德電機 (Schneider Electric) 等公司,提供從機櫃、配電到散熱的整體解決方案。

  2. 專業液冷技術公司:他們是特定領域的專家和領導者。

    • CoolIT Systems 和 Asetek 是「直接液冷」領域的領導品牌,提供關鍵的冷板、管路和監控系統,與伺服器大廠深度合作。

    • Submer 和 GRC (Green Revolution Cooling) 則是「浸沒式散熱」的先驅,提供標準化的散熱槽與冷卻液解決方案。

  3. 伺服器品牌廠 (OEMs):他們是將液冷技術整合進產品的關鍵角色。

    • 美超微 (Supermicro)戴爾 (Dell)慧與 (HPE) 等伺服器龍頭,都已推出搭載先進液冷系統的高階 AI 伺服器系列。

  4. 晶片設計巨頭:他們是這場革命的「需求定義者」。

    • 輝達 (NVIDIA) 的最新 GB200 NVL72 伺服器架構,從設計之初就完全基於液冷,使其成為 AI 伺-服器的「標準配備」,而非「選配」。

  5. 關鍵零組件供應鏈:包含製造冷板、泵、冷卻液分配裝置 (CDU)、特殊管路、接頭、不導電冷卻液等成千上百家公司。


技術的普及時程與挑戰


  • 挑戰一:前期成本與導入複雜性:液冷基礎設施的前期建置成本(管路、CDU 等)高於傳統風冷。此外,資料中心的維運人員習慣於處理空氣和電力,對於在機房內引入「液體」管路,普遍存在對洩漏風險的擔憂和維護上的陌生感。

  • 挑戰二:標準化:目前液冷的各種接頭、管路規格尚未完全統一,增加了設計和維護的複雜性。

預計時程

  • 直接液冷 (DLC):正在快速成為主流。在 2024-2026 年間,所有高階 AI 和 HPC(高效能運算)系統都將把 DLC 作為標配。

  • 浸沒式散熱:仍處於早期採用階段,但在對能源效率和運算密度有極致要求的超大規模資料中心和邊緣運算場景,正獲得越來越多的關注,預計在 2026-2030 年間迎來高速成長期。


潛在的風險與替代方案


市場的主要風險在於,傳統企業級資料中心的用戶,因為對風險的厭惡和對成本的敏感,接納液冷的速度可能不如預期。


然而,替代方案幾乎不存在。面對下一代 AI 晶片超過 1,500 瓦的功耗,試圖用更強的風扇、更巨大的散熱片等方式來延續「風冷」的壽命,其效益已微乎其微,問題早已不是「是否」要轉向液冷,而是「何時」以及「用哪一種」液冷。


未來展望與投資視角 (結論)


先進散熱技術已不再是資料中心的附屬品,而是與運算、儲存、網路同等重要的「第四大基礎設施」,是 AI 時代的根本性賦能技術。一個價值數十億美元的 AI 叢集,其最終能發揮多少效能,直接取決於我們能多有效地為它「退燒」。


對於投資人來說,這是一條極度清晰的「賣鏟人」投資賽道:


  • 非選擇性支出:只要 AI 晶片繼續追求極致效能,對先進散熱的需求就是「剛性」的,不存在週期性。

  • 龐大且多元的生態系:投資機會遍及整個產業鏈,從提供整體方案的基礎設施巨頭,到專注於利基市場的液冷專家,再到生產關鍵零組件的材料與設備商。

  • 永續與成本的雙重驅動:在全球能源成本飆漲和 ESG(環境、社會及管治)壓力下,液冷帶來的巨大節能效益,使其不僅具備效能上的必要性,更具備了強大的經濟誘因。


在未來十年,「熱管理」(Thermal Management) 市場注定將是資料中心產業中成長最快的子領域之一。在關注數據流向的同時,追蹤「冷卻液」的流向,將是掌握 AI 基礎設施脈動的全新視角。

Subscribe to AmiNext Newsletter

Thanks for submitting!

  • LinkedIn
  • Facebook

© 2024 by AmiNext 金融與科技筆記

bottom of page