top of page

【T&M 測試】眼圖的「三層樓」挑戰:沒有 PCIe 7.0 物理層驗證,就沒有下一代 AI 資料中心

  • 作家相片: Sonya
    Sonya
  • 10月13日
  • 讀畢需時 7 分鐘

秒懂重點:沒有這項測試,就沒有下世代科技


想像一下,AI 模型的智慧就像一座巨型圖書館的藏書,而 PCIe 總線就是連接不同書庫(如 CPU、GPU、記憶體)的高速通道,當通道速度越來越快,資訊「包裹」在傳遞過程中就越容易模糊、毀損,PCIe 7.0 的速度快到傳統的「對或錯」(0 或 1)檢測方式已完全失效,必須改用更複雜的「四級灰度」(PAM4)訊令,這好比把原本只有一層樓的通道,硬是蓋成了三層樓(因為四個電壓位準會形成三個眼圖),每個樓層都更窄、更容易受到雜訊干擾,如果沒有最先進的物理層電氣驗證技術,來確保這三層樓的訊號都清晰可辨,那麼 AI 加速器之間將無法穩定交換海量數據,整個 AI 資料中心的算力都將是空中樓閣,簡言之,搞不定 PCIe 7.0 測試,AI 的下一個篇章就無法開啟。


ree

測試技術白話文:原理與曠世挑戰


過去的測試瓶頸:為何傳統方法已不敷使用?


在 PCIe 5.0 及之前的時代,訊號採用的是一種稱為「不歸零 (NRZ)」的調變方式,它的邏輯很簡單,就像電燈的開關,用高電壓代表 "1",低電壓代表 "0",測試工程師只需專注於一個清晰的「眼圖」,眼圖張得越大,代表訊號品質越好,數據傳輸越可靠。


然而,當速度衝上 128 GT/s(每秒傳輸 1280 億次),如果繼續使用 NRZ,訊號頻率會高到讓電路板上的銅箔走線變成一個巨大的訊號衰減器與雜訊放大器,訊號跑不了多遠就面目全非,眼圖會完全閉合,這就像在高速公路上,車速快到一定程度後,任何微小的顛簸都會被無限放大,最終導致失控。因此,PCIe 6.0 率先引入、並由 7.0 沿用的 PAM4(四級脈衝振幅調變)技術,成為唯一的出路,但這也讓傳統的測試方法瞬間過時,因為工程師面對的不再是一個簡單的開關,而是一個有四個檔位的精密儀器。



核心測試原理是什麼?


PAM4 的核心思想是在相同的時間內傳遞兩倍的資訊,它不再只用高低兩種電壓,而是使用四種不同的電壓位準(例如 0V, 1V, 2V, 3V)來同時表示兩位元的資訊 (00, 01, 10, 11)。


這個改變對測試帶來了革命性的影響:


  • 從「一個大眼睛」到「三個小眼睛」:"四個電壓位準會堆疊出三個垂直的眼圖,這代表每個眼睛的高度只有過去 NRZ 的三分之一,訊號的「裕度」或「容錯空間」被急遽壓縮,對雜訊變得極度敏感,測試儀器必須有能力精準地捕捉並分析這三個小而脆弱的眼睛。

  • 不再只看「是非」,更要看「線性度」 在 NRZ 時代,只要能分出 0 和 1 即可,但在 PAM4 中,四個電壓位準之間的間距是否「均等」至關重要;如果不均等,某個眼圖就會被不成比例地壓縮,成為整個鏈路的致命弱點,這就像三層樓的樓高不一樣,某一樓特別矮,就很容易撞到頭;因此,測試多了一個關鍵指標,稱為「電位準分離失配率 (RLM)」,專門用來量化這種線性度問題。


測試的本質,就是用一個「絕對完美」的尺,去度量一個「不完美」的產品,在這裡,高頻寬示波器就是那把尺,它必須在極高的速度下,精準地測量出每個信號位準的電壓、時間抖動,以及三個眼圖各自的健康狀況,確保它們在傳輸了數十億個位元後,依然清晰可辨。


高速串行鏈路的電氣層與協定層協同運作。 物理層眼圖序列(上)展示了訊號如何透過發送端預補償 (TxEQ) 與接收端等化 (RxEQ) 來克服通道損耗,協定層(下)則揭示,這些關鍵的等化參數,正是透過鏈路訓練 (Link Training) 過程在系統與擴充卡之間動態協商而來,以確保鏈路的穩定性。(圖片來源: blog.teledynelecroy.com)
高速串行鏈路的電氣層與協定層協同運作。 物理層眼圖序列(上)展示了訊號如何透過發送端預補償 (TxEQ) 與接收端等化 (RxEQ) 來克服通道損耗,協定層(下)則揭示,這些關鍵的等化參數,正是透過鏈路訓練 (Link Training) 過程在系統與擴充卡之間動態協商而來,以確保鏈路的穩定性。(圖片來源: blog.teledynelecroy.com)

新一代測試技術的突破點


為了應對 PAM4 帶來的挑戰,新一代 T&M 技術實現了幾個關鍵突破:


  • 超高頻寬與極低噪聲:為了捕捉 128 GT/s 訊號的真實樣貌,示波器的類比頻寬需要達到 70 GHz 甚至更高,更重要的是,示波器自身的雜訊(稱為雜訊底層)必須極低;否則,儀器自身的雜訊就會淹沒掉訊號中微弱的細節,就像用一台充滿雜音的麥克風去錄製一場交響樂,完全無法分辨樂器的聲音。

  • 複雜的等化與訊號處理:由於訊號在傳輸路徑中必然會劣化,接收端晶片內部會有名為「等化器 (Equalizer)」的電路來「修復」訊號,測試儀器也必須具備同樣甚至更強大的軟體能力,模擬接收端的等化過程,移除測試夾具和纜線的影響(稱為去嵌入 De-embedding),才能準確判斷晶片本身的發送品質。

  • 從誤碼率到信號品質指標的演進:傳統上,用誤碼率測試儀 (BERT) 長時間運行來統計錯誤位元是黃金標準,但在 PAM4 時代,由於前向糾錯 (FEC) 機制的引入,系統能容忍更高的原始誤碼率,因此,業界更專注於一些能快速評估訊號品質的綜合指標,如 SNDR(訊號與失真雜訊比)和 TDECQ(發射機色散眼圖閉合代價),它們能更快地預測系統在真實應用中的表現。


產業影響與應用


完整驗證藍圖:從研發到量產的挑戰


挑戰一:物理層信號驗證


在晶片設計初期的研發 (R&D) 和設計驗證 (DVT) 階段,工程師需要徹底地表徵發送器 (Tx) 和接收器 (Rx) 的電氣特性。


  • 核心測試工具與技術要求

    • 發送器測試 (Tx Test):需要超高頻寬即時示波器,其關鍵規格是超過 70 GHz 的類比頻寬極低的雜訊底層,才能準確測量 PAM4 的三個眼圖、SNDR 和 RLM 等指標。

    • 接收器測試 (Rx Test):需要高效能誤碼率測試儀 (BERT),它必須能生成高品質、可精確注入各種抖動與雜訊的 128 GT/s PAM4 訊號,以測試接收器在最惡劣訊號條件下的解碼能力,這就像是為接收晶片進行一場「壓力測試」。


挑戰二:協議層邏輯除錯


訊號品質只是第一步,確保數據能按照 PCIe 複雜的協定規則正確收發同樣重要,尤其是在新的 Flit Mode 編碼和低延遲 FEC 機制下,微小的邏輯錯誤都可能導致鏈路無法建立或效率低下。


  • 核心測試工具與技術要求

    • 需要協定分析儀 (Protocol Analyzer) 和 協定演練器 (Exerciser),分析儀就像一個能聽懂 PCIe 語言的竊聽器,需要有足夠大的內存深度來捕捉從鏈路建立 (LTSSM) 到數據傳輸的完整過程;演練器則能主動模擬各種合規或非合規的協定行為,以驗證待測物的響應是否正確,其強大的即時觸發與過濾功能是從數十億筆交易中定位單一錯誤事件的關鍵。


挑戰三:量產階段的效率與成本


到了量產階段,測試的重點從「鉅細靡遺的分析」轉變為「快速準確的篩選」,不可能在產線上放置昂貴又耗時的示波器和 BERT。


  • 核心測試工具與技術要求

    • 通常採用自動化測試設備 (ATE) 或模組化儀器 (如 PXI 架構),這些系統的核心是測試速度可擴展性,研發階段的複雜測試演算法會被簡化成能在幾秒鐘內完成的通過/失敗 (Pass/Fail) 判斷;例如,透過測量幾個關鍵的頻域和時域參數,快速評估訊號品質,而非繪製完整的眼圖,如何將研發階段的測試方法與量產測試建立良好的關聯性 (Correlation),是降低測試成本、加速產能爬坡的關鍵。


應用為王:哪些產業的命脈掌握在它手中?


PCIe 7.0 測試技術的成敗,直接決定了以下幾個關鍵產業的發展速度:


  • AI 與高效能運算 (HPC):這是最直接的應用,無論是 NVIDIA、AMD 的下一代 GPU,還是 Google、AWS 自研的 AI 晶片,都需要 PCIe 7.0 來實現多個加速器之間的高速互連(例如 NVLink 的底層物理層),以訓練動輒數兆參數的 AI 模型。

  • 資料中心與伺服器:台灣的伺服器代工廠如廣達、緯創、鴻海,以及品牌廠如技嘉、華擎,其下一代 AI 伺服器的設計與驗證,都離不開 PCIe 7.0 測試,從主機板的佈線設計、連接器選型到整機的訊號完整性驗證,都需要依賴 T&M 廠商提供的解決方案。

  • 次世代儲存:NVMe SSD 的速度極限同樣由 PCIe 介面決定,PCIe 7.0 將讓 SSD 的讀寫速度達到驚人的數十 GB/s,徹底消除數據存取的瓶頸。


前瞻未來:技術普及的挑戰與下一波趨勢


PCIe 7.0 的普及仍面臨挑戰,主要在於成本與功耗,PAM4 的收發器 (SerDes) 設計極度複雜,功耗也更高,因此,產業正在積極探索替代方案。


下一波趨勢很可能是光學互連 (Optical Interconnect),PCI-SIG 已經在為 PCIe 導入光學傳輸制定標準,當銅纜的傳輸極限到來時,使用光纖來傳輸 PCIe 訊號將成為必然選擇,這將為 T&M 產業帶來全新的挑戰與機遇,測試儀器將需要同時具備電信號和光訊號的分析能力。


投資視角:為何「賣鏟子」的生意值得關注?


在 AI 的淘金熱潮中,開發 AI 晶片的公司如同淘金者,他們承擔著巨大的研發投入與市場風險。而提供測試與量測儀器的 T&M 公司,則是那個「賣鏟子和篩子」的,無論哪家晶片公司最終勝出,他們都需要同樣的工具來驗證其產品是否符合標準、性能是否達標。


T&M 產業具備幾個獨特的投資價值:


  1. 高技術壁壘:能製造 70 GHz 示波器或 128 GT/s BERT 的公司全球屈指可數,其背後是數十年的射頻、微波及數位信號處理技術積累。

  2. 標準制定的參與者:頂級 T&M 廠商從標準制定的第一天起就深度參與其中,確保在新標準發布的同時,就能推出對應的測試解決方案,佔據市場先機。

  3. 產業基石的角色:任何科技的進步,從 6G 通訊到量子計算,都離不開測量的先行。沒有測量,就沒有科學,更沒有可靠的工程。這使得 T&M 產業的需求具備長期且穩定的成長性。


因此,關注 T&M 產業,不僅僅是關注儀器本身,更是洞察整個科技產業發展方向的風向標。當標準推向極限,也正是這些「賣鏟子」的公司價值最凸顯的時刻。

Subscribe to AmiNext Newsletter

Thanks for submitting!

  • LinkedIn
  • Facebook

© 2024 by AmiNext 金融與科技筆記

bottom of page