最近很火熱的“超節點”,到底是乾啥的?

最近這段時間,有個新名詞在AI圈裡迅速走紅,那就是--超節點。

在各大展覽論壇上,超節點頻繁亮相。業界大佬們也紛紛搖旗吶喊,認為它將是智算發展的重要趨勢,迎來一波發展熱潮。

那麼,到底什麼是超節點呢?我們為什麼需要超節點呢?

今天這篇文章,小棗君就為大家做一個深入解讀。

什麼是超節點?
超節點,英文名叫SuperPod,是英偉達公司最早提出的概念。

大家都知道,GPU是重要的算力硬件,為AIGC大模型的訓推提供了有力的支撐。


隨著大模型參數規模的不斷成長,對GPU叢集的規模需求,也不斷成長。從千卡級到萬卡級,再到十萬卡級,未來甚至可能更大。

那麼,我們該如何建構規模越來越大的GPU叢集呢?

答案很簡單,就是Scale Up和Scale Out。

Scale Up,是向上擴展,也叫縱向擴展,增加單一節點的資源數量。 Scale Out,是向外擴展,也叫橫向擴展,增加節點的數量。

每台伺服器裡,多塞幾塊GPU,這就是Scale Up。這時,一台伺服器就是一個節點。

透過網絡,將多台電腦(節點)連接起來,這就是Scale Out。
先說說Scale Up。

對於單一伺服器來說,受限於空間、功耗和散熱,能塞入的GPU數量是有限的,一般也就8卡、12卡。

塞入這麼多塊GPU,還要考慮伺服器的內部通訊能力是否能夠支援。如果GPU互連存在瓶頸,那麼就達不到Scale Up的預期效果。

以前,電腦內部主要基於PCIe協議,資料傳輸速率慢,時延高,根本無法滿足要求。

2014年,英偉達為了解決這個問題,特別推出了自家私有的NVLINK匯流排協定。 NVLINK允許GPU之間以點對點方式進行通信,速度遠高於PCIe,時延也低得多。
NVLINK原本只用於機器內部通訊。 2022年,英偉達將NVSwitch晶片獨立出來,變成了NVLink交換機,用於連接伺服器之間的GPU設備。這意味著,節點已經不再僅限於1台伺服器了,而是可以由多台伺服器和網路設備共同組成。

這些設備處於同一個HBD(High Bandwidth Domain,超頻寬域)。英偉達將此以超大頻寬互聯16卡以上GPU-GPU的Scale Up系統,稱為超節點。

歷經多年的發展,NVLINK已經迭代到第五代。每塊GPU擁有18個NVLink連接,Blackwell GPU的總頻寬可達1800GB/秒,遠超過PCIe Gen6的匯流排頻寬。
2024年3月,英偉達發布了NVL72,可以將36個Grace CPU和72個Blackwell GPU整合到一個液冷機櫃中,實現總計720 PFLOPs的AI訓練性能,或1440 PFLOPs的推理性能。

超節點,有哪些優點?
說到這裡,大家可能會提出疑問──為什麼一定要搞超節點呢?如果Scale Up這條路線不好走,我們就走Scale Out路線,增加節點數,不也能做出大規模GPU叢集嗎?

答案很簡單。之所以要搞超節點這種加強版的Scale Up,是因為在效能、成本、網路、維運等方面,能帶來巨大優勢。

Scale Out,考驗的是節點之間的通訊能力。目前,主要採用的通訊網路技術,是Infiniband(IB)和RoCEv2。
這兩種技術都是基於RDMA(遠端直接記憶體存取)協議,擁有比傳統乙太網路更高的速率、更低的時延,負載平衡能力也更強。

IB是英偉達的私有技術,起步早,性能強,價格貴。 RoCEv2是開放標準,是傳統乙太網路融合RDMA的產物,價格便宜。兩者之間的差距,不斷縮小。

在頻寬方面,IB和RoCEv2僅能提供Tbps等級的頻寬。而Scale Up,能夠實現數百個GPU間10Tbps頻寬等級的互聯。

在時延方面,IB和RoCEv2的時延時延高達10微秒。而Scale Up對網路延遲的要求極為嚴苛,需要達到百奈秒(100奈秒=0.1微秒)等級。
在AI訓練過程中,包含多種平行計算方式,例如TP(張量並行)、 EP(專家並行)、PP(管線並行)和DP(資料並行)。

通常來說,PP和DP的通訊量較小,一般交給Scale Out搞定。而TP和EP的通訊量大,需要交給Scale Up(超節點內部)搞定。

超節點,作為Scale Up的當前最優解,透過內部高速匯流排互連,能夠有效支撐平行運算任務,加速GPU之間的參數交換與資料同步,縮短大模型的訓練週期。
超節點一般也都會支援內存語意能力,GPU之間可以直接讀取對方的內存,這也是Scale Out不具備的。

站在組網和運維的角度來看,超節點也有明顯優勢。

超節點的HBD(超頻寬域)越大,Scale Up的GPU越多,Scale Out的網路網路就越簡單,大幅降低網路複雜度。
超節點是一個高度整合的小型集群,內部匯流排已經連好。這也降低了網路部署的難度,縮短了部署週期。後期的運維,也會方便很多。

當然,超節點也不能無限大,也要考慮本身的成本因素。具體的規模,需要根據需求場景進行計算。

概括來說,超節點的優勢,就是增加局部的頻寬,減少增加全域頻寬的成本,以獲得更大的效益。

 超節點,有哪些可選的方案?
正因為超節點擁有顯著的優勢,所以,在英偉達提出這個概念後,立刻受到了業界的關注。也有很多廠商,加入到超節點的研究中。
目前,業界主流的超節點方案,主要包括下列幾種:

一、私有協定方案。
代表廠商,當然就是英偉達。

除了英偉達之外,國內大廠華為,前段時間高調發布的AI核彈級技術-CloudMatrix 384超節點,也屬於私有協定。

CloudMatrix 384以384張昇騰算力卡組成一個超節點,在目前已商用的超節點中單體規模最大,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統的兩倍。
二、開放組織方案。
有私有協議,當然會有開放標準。網路時代,開放解耦是大勢所趨。

私有協定往往意味著高昂的成本。對AI這個熱門方向來說,發展開放標準,有利於降低產業門檻,幫助實現技術平權。

目前來看,超節點的開放標準不只一個,但基本上都是以乙太網路技術(ETH)為基礎。因為乙太網路技術最成熟、最開放,也擁有最多的參與企業。
從技術的角度來看,乙太網路具有最大交換晶片容量(單晶片51.2T已商用)、最高速Serdes技術(目前達到112Gbps),交換晶片時延也很低(200ns),完全可以滿足Scale Up的效能要求。

在超節點開放標準中,其中比較具代表性的,是由開放資料中心委員會(ODCC)主導、中國信通院與騰訊牽頭設計的ETH-X開放超節點計畫。
這個計畫一共有30餘家產學研機構共同參與。其中,包括營運商(中國移動​​)、雲端廠商(騰訊等),也包括設備商(銳捷、中興等)、算卡供應商(燧原科技、壁仞科技等)商,以及高速互連技術方案供應商(立訊技術等)。

讓我們來簡單了解一下ETH-X開放超節點的技術細節。

ETH-X基於乙太網路技術建構大頻寬、彈性可擴展的HBD,具備高算力密度、高互聯頻寬、高功率密度和高能效等特性。

值得注意的是,ETH-X不僅包含了Scale Up,也包含了Scale Out。典型的組網拓撲,如下圖所示:
根據騰訊在2024開放資料中心大會提供的數據,基於ETH-X超節點,在訓練場景下,LLama-70B稠密型模型在64K叢集下的效能/成本進行對比,採用256卡的Scale Up,比8卡的Scale Up低了38%的訓練成本。

在推理情境下,LLama-70B在FP4精度128卡實例推理性能/成本對比中,256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。

這個效果還是非常不錯的。

目前,ETH-X超節點技術規格1.0已經發布。不久前(4月8日),ETH-X開放超節點計畫在華勤技術東莞智慧製造基地,舉行了首台原型機的下線點亮儀式。
我們再來看看ETH-X開放超節點的實體架構。

AI Rack整機櫃是ETH-X超節點的具體實現方式。整機櫃內Serdes速率目前最高支援112Gbps,未來支援到224Gbps。

機櫃包括計算節點、交換節點和關鍵組件。
整機櫃內部可實現多GPU間NOC(Network-on-Chip)級通訊拓撲,透過統一記憶體編址與記憶體語意接口,支援跨GPU直接存取(Direct Access)與零拷貝傳輸(Direct Copy)。

根據實際測試的數據,跨卡數據存取時延能夠降低12.7倍,動態重構8~512卡超節點的彈性組合單元。

在關鍵組件中,Cable Tray特別值得關注。
ETH-X超節點AI Rack採用機櫃銅連接方案。而Cable Tray,就是實現各個子系統硬體互通的高速銅纜方案,也是提供高速互連能力的重要連接器硬體。

英偉達的最新NVLINK方案,也用的Cable Cartridge方案。在短距傳輸場景,相對於光纖,機櫃內採用銅連接,可以實現高可靠性和低成本(減少了光模組的使用),也有利於佈線。目前看來,在Scale Up內部使用銅纜直連技術,已經是主流趨勢。

最後的話
好啦,以上就是關於超節點的全部介紹。大家都看懂了沒?
隨著AI浪潮的持續發展,業界對超節點的需求會變得越來越強烈。更多的廠商,將會加入相關的開放標準。這將有力推動相關技術和標準的成熟,帶來更繁榮多元的生態。

超節點,未來可期!