top of page

【科技速解】AI 的「中暑」危機:為什麼「液冷」是決定算力生死的散熱革命

  • 作家相片: Sonya
    Sonya
  • 10月22日
  • 讀畢需時 6 分鐘

秒懂重點:為什麼你現在非懂不可?


想像一下,你買了一台擁有 1000 匹馬力的頂級法拉利跑車(這就是最新的 AI 晶片),但你卻試圖用一台家用的小電風扇來冷卻它全速運轉的引擎,結果可想而知:引擎過熱,車子的行車電腦為了自保,會強制「降速」(Throttling),最終你只能以時速 30 公里在路上爬行。


這就是當今 AI 資料中心面臨的荒謬現實,我們花費數十萬美元購買的頂級 GPU,有很大一部分時間因為「太熱了」而無法全力運轉,傳統的風扇散熱(氣冷),面對 AI 晶片這種「熱力怪獸」已經徹底投降,AI 發展的瓶頸,已經從「算力不足」轉變為「散熱無力」


「液冷技術」,就是為這台法拉利引擎量身打造的「F1 賽車級水冷散熱系統」,它不再使用效率低落的空氣,而是改用傳熱效率高出數千倍的「液體」來直接帶走熱量,這場散熱革命不僅是為了省電,更是為了釋放那些被高溫封印的 90% 算力,看懂液冷,就是看懂 AI 基礎設施的下一個關鍵戰場。


ree

技術白話文:原理解析與核心突破


過去的瓶頸:它解決了什麼關鍵問題?


數十年來,資料中心都依賴「氣冷」(Air Cooling),它的原理很簡單:在機房裡安裝巨型空調,把冷空氣灌入伺服器機櫃,再由伺服器內部的無數風扇把熱空氣抽出來,這個模式在過去 CPU 功耗不高的時代運作良好。



但 AI 時代帶來了「熱密度災難」:


  1. 效率太差 (隔空搔癢):空氣是一種很糟糕的熱導體,你想想看,用「風」吹涼一塊滾燙的鐵板要多久?這就是氣冷的問題。它無法快速、有效地把熱量從晶片表面帶走。

  2. 空間浪費:為了讓空氣流通,伺服器機櫃之間必須留有大量通道(冷熱通道),機櫃內的晶片也不能放得太密集,整個資料中心有將近一半的空間,都浪費在「讓空氣走路」這件事上。

  3. 能源黑洞:資料中心最耗電的,除了晶片本身,就是「空調和風扇」,根據統計,傳統資料中心有高達 30%-40% 的電力,是消耗在「散熱」這件無謂的苦工上,這在 ESG 趨勢下是不可接受的浪費。


當 NVIDIA 的 GPU 功耗從 300W 飆升到 1000W,甚至整個機櫃高達 120,000W 時,單靠空氣,這場火已經救不了了。


它是如何運作的?(務必使用精妙比喻)


液冷技術的核心,就是「水(液體)的傳熱效率是空氣的數千倍」,與其隔空搔癢,不如直接接觸。目前主流的液冷方案分為兩大類:


方案一:直接液冷 (DLC - Direct Liquid Cooling) - 幫晶片穿上「冰鎮背心」


這就像是為每一顆發燙的 CPU 和 GPU,量身訂做一件「冰鎮水管背心」(專業上稱為「冷板 (Cold Plate)」)。


  1. 貼身降溫:這塊佈滿微小水管的銅製冷板,會直接貼在晶片上。

  2. 循環帶走熱量:來自外部幫浦的「冷卻液」(通常是水或特殊混合液),會流經這件背心,在 0.1 秒內精準地吸走晶片 100% 的熱量,然後變成熱水流出去。

  3. 外部冷卻:這些熱水會被送到機櫃外部的「冷卻分配單元 (CDU)」進行降溫,然後再送回晶片,形成一個封閉的循環。


優點:改裝相對容易,只針對最熱的晶片降溫,這是目前的主流方案,台灣的散熱大廠如奇鋐、雙鴻正是此領域的佼佼者


方案二:浸沒式冷卻 (Immersion Cooling) - 讓伺服器「泡溫泉」


這是更激進、也更終極的方案,與其幫晶片穿背心,不如把整台伺服器(包含主機板、記憶體、晶片)全部丟進一個裝滿「特殊冷卻液」的浴缸裡


  1. 泡澡式散熱:這些液體是「介電質液體」,聽起來很專業,其實就是「不導電的油」(或特殊氟化液)。所以伺服器泡在裡面不會短路。

  2. 全面散熱:晶片和所有零件產生的熱量,會直接、瞬間地傳導給周圍的液體,液體再循環出去降溫。

  3. 零噪音:因為完全不需要風扇,整個資料中心會變得異常安靜。


優點:散熱效率的「天花板」,能處理的熱密度最高,而且極度省電(省下所有風扇電力)。這是未來超級電腦的終極型態,廣達、技嘉等伺服器大廠已在此領域深度佈局


為什麼這是革命性的?


1. 釋放 100% 的算力潛能:這是最重要的。採用液冷後,晶片永遠不會「中暑」,可以 7x24 小時全速運轉,徹底消除「熱節流」(Thermal Throttling) 瓶頸,這等於是花了同樣的錢,買到了更強的效能。

2. 節省 40% 的營運成本:液冷系統省去了絕大部分的風扇和空調電力,這讓資料中心的「電源使用效率 (PUE)」大幅改善。

  • PUE 小教室:PUE = 資料中心總用電 / IT 設備用電。

  • 傳統氣冷 PUE 約 1.6(即用 1 度電算繪,要花 0.6 度電散熱)。

  • 液冷 PUE 可輕易降至 1.1 甚至 1.03(用 1 度電算繪,只花 0.03 度電散熱),這對 Google、Microsoft 等巨頭每年可省下數十億美元的電費

3. 兩倍的空間密度:因為不再需要為「風」預留通道,伺服器機櫃可以緊密地並排。在寸土寸金的都會區,這意味著同樣的空間能塞進兩倍的算力。


產業影響與競爭格局


誰是主要玩家?(供應鏈解析)


這是一條正在以「黃金交叉」速度崛起的全新供應鏈,而台灣廠商正站在風暴的核心。


  • 伺服器品牌與系統整合 (出海口)廣達 (Quanta)鴻海 (Foxconn)/鴻佰緯穎 (Wiwynn)技嘉 (Gigabyte),它們是最終的「組裝廠」,負責將所有液冷元件整合到伺服器機櫃中,直接出貨給美系四大雲端服務商 (CSP)。

  • 液冷模組/冷板 (心臟)台達電 (Delta)奇鋐 (AVC)雙鴻 (Auras),這是台灣的傳統強項,它們掌握了「冷板」這個關鍵零組件的設計與製造,是 DLC 方案的最大受惠者。奇鋐與雙鴻更因NVIDIA 的 GB200 訂單而成為全球焦點。

  • 關鍵零組件 (管線與幫浦):這部分較為分散,包含幫浦、快速接頭、分歧管等。

  • 介電質液體 (浸沒式的「血液」):過去由 3M (以其 Novec 和 Fluorinert 產品) 壟斷,但 3M 近期宣布因環保法規(PFAS 相關)將退出此市場,造成產業大地震,但也給了台灣的化學廠(如三福化)與全球新進者一個絕佳的切入機會。


技術的普及時程與挑戰


  • 普及時程2024 至 2026 年是液冷從 1% 滲透到 50% 的關鍵爆發期,NVIDIA 的 B100/B200 和 AMD 的 MI300X 系列晶片,其驚人功耗已「強制」所有客戶必須採用 DLC 方案。

  • 挑戰

    1. 漏液風險:這是所有資料中心經理的惡夢,「水」跟「電」放在一起,只要一個接頭沒鎖緊,就可能造成數百萬美元的災難。

    2. 標準不統一:目前各家大廠的液冷接頭、管線規格都不同,導致維護困難且成本高昂。

    3. 浸沒式液體的成本:不導電的介電質液體,目前價格仍非常昂貴,且環保法規 (PFAS) 的不確定性,是浸沒式冷卻普及的最大阻礙。


潛在的風險與替代方案


風險主要來自於「導入速度不如預期」,如果 DLC 方案的漏液問題頻傳,或成本下降緩慢,可能會讓部分客戶選擇觀望,或繼續使用「氣冷+液冷」的混合式方案。

但長期來看,液冷沒有「替代方案」,物理學已經判了氣冷死刑,未來的競爭不再是「氣冷 vs. 液冷」,而是「哪一種液冷方案 (DLC vs. 浸沒式)」能勝出,以及誰能提供成本最低、最可靠的產品。


未來展望與投資視角 (結論)


我們正處於資料中心散熱模式的「百年一遇」大轉捩點。這場由 AI 算力引爆的「高熱危機」,正強迫全球科技巨頭必須進行基礎設施的全面革新。


對於投資者而言,這意味著一個清晰可見的龐大商機,「散熱」已從一個不起眼的「配件」產業,躍升為決定 AI 算力能否實現的「關鍵瓶頸產業」


過去,散熱模組的價值可能只佔伺服器成本的 1-2%。但在液冷時代,整套系統(包含冷板、CDU、管線)的價值將佔到伺服器總成本的 10% 甚至更高,這是一個十倍速的價值翻轉


當市場還在瘋狂追逐 GPU 能跑多快時,聰明的投資者應該反向思考:是誰,在為這台全速運轉的 F1 引擎提供最關鍵的冷卻系統?在這條由台灣廠商主導的黃金賽道上,散熱革命才剛剛拉開序幕。

Subscribe to AmiNext Newsletter

Thanks for submitting!

  • LinkedIn
  • Facebook

© 2024 by AmiNext 金融與科技筆記

bottom of page