投資 >

今日熱議：為AI大模型訓練“修路”：騰訊云首發H800 GPU，集群算力提升三倍

2023-04-14 15:44:46 來源：21世紀經濟報道

21世紀經濟報道記者白楊北京報道

4月14日，騰訊云正式發布新一代HCC（High-Performance Computing Cluster）高性能計算集群。據悉，該集群采用騰訊云星星海自研服務器，搭載英偉達最新代次H800 GPU，服務器之間采用3.2T超高互聯帶寬，可為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。

騰訊云的實測數據顯示，新一代集群的算力性能較前代提升高達3倍，是目前國內性能最強的大模型計算集群。去年10月，騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練，當時的訓練時間為11天，如果基于新一代集群，訓練時間將縮短至4天。

【資料圖】

在AI大模型火熱的當下，算力也成為業界關注的重點。這是因為在大模型的訓練過程中，算力、算法和數據缺一不可。隨著圍繞AI大模型的全球軍備競賽打響，業界對算力的需求也更加旺盛。

去年，有研究機構預估，未來對一個大模型訓練所需的算力，可能每三、四個月就需要翻一番，這意味著一年就要增加10倍。而今年在ChatGPT的推動下，算力的增長也將進一步提速。

騰訊云異構計算產品總監宋丹丹此前接受21世紀經濟報道記者采訪時表示，大模型對算力的要求分為訓練和推理兩個階段。其中，訓練需要短時間內并行算力非常全且非常大，并且要在短時間內能夠交付，所以對算力的量級、算力的穩定性彈性擴容能力都有較高的要求。

現階段，AI大模型正處于訓練需求的爆發期，大家都需要海量的可擴縮容的高性能算力，而且這些算力需要穩定交付和計算。所以對云廠商來說，目前正迎來一個全新的市場機遇。

首發H800

過去幾年，算力其實也在因需而變，以往的計算已經變成了智算。所謂智算，也稱異構計算，是用不同制程架構、不同指令集、不同功能的硬件組合起來解決問題的計算架構。例如，相對于只用CPU的通用計算，在服務器里使用CPU+GPU就是異構計算。

智算背后的邏輯，是讓最適合的專用硬件去做最適合的事。GPU在并行計算任務為主的AI訓練/推理和圖形圖像處理等專用場景上，比傳統CPU效率更高且延遲更低。

騰訊云此次發布的HCC，也是利用并行計算理念，通過CPU和GPU節點的一體化設計，將單點算力性能提升至最強。除此之外，騰訊云新一代HCC備受關注的原因，是它在國內首發了英偉達H800 GPU。

資料顯示，H800是英偉達新代次處理器，基于Hopper架構，對跑深度推薦系統、大型AI語言模型、基因組學、復雜數字孿生等任務的效率提升非常明顯。與A800相比，H800的性能提升了3倍，在顯存帶寬上也有明顯的提高，達到3 TB/s。

雖然論性能，H800并不是最強的，但由于美國的限制，性能更強的H100無法供應給中國市場。有業內人士表示，H800相較H100，主要是在傳輸速率上有所差異，與上一代的A100相比，H800在傳輸速率上仍略低一些，但是在算力方面，H800是A100的三倍。

先進芯片不等于先進算力

芯片受限，固然是個卡脖子難題，也需要投入更多力量去解決。但從AI大模型訓練的角度，近日多位AI行業人士在接受記者采訪時均提出，算力的提升不是單純堆卡，而是存在“木桶效應”，計算、存儲、網絡一旦出現瓶頸就會導致運算速度嚴重下降。光增加GPU卡或計算節點，但網絡時延沒降低，并不能線性地提升算力收益。

所以，用上了先進芯片并不代表就擁有了先進算力。以算力對網絡的要求為例，目前GPU并行是大模型訓練的必備技術，不同于傳統并行以加快計算速度為目的，大模型的并行計算往往還要考慮怎樣將龐大的參數有機地分布到多張GPU卡中，并保持不同GPU卡之間有效的通信，整體配合完成大模型的訓練部署。

即使是目前業界已有的GPU分布式訓練方案，也嚴重依賴于服務器之間的通信、拓撲、模型并行、流水并行等底層問題的解決情況。如果只有分布式訓練框架，甚至都無法正常啟動訓練過程。這也是為什么當時GPT-3已發布一年，卻只有少數企業可以復現GPT-3。

先進算力的背后，是先進芯片、先進網絡、先進存儲等一系列的支撐，缺一不可。比如在網絡層面，模型參數量越大，對帶寬的需求就越高。相比單點GPU故障只影響集群算力的千分之幾，一條鏈路的負載不均導致網絡堵塞，就會成為木桶短板，影響到數十個甚至更多GPU的連通性。在這種情況下，其他鏈路即使暢通無阻，通信時間仍然會大幅度增長，進而直接影響訓練效率。

此外，集群訓練也會引入額外的通信開銷，導致N個GPU算力達不到單個GPU算力的 N 倍。業界開源的GPU集合通信庫（比如NCCL），也不能將網絡的通信性能發揮到極致。

優化計算集群彌補芯片短板

正因算力的“木桶效應”，也給了云廠商可施展的舞臺。通過對單機算力、網絡架構和存儲性能進行協同優化，提高算力效率，云廠商的高性能計算集群是能夠彌補芯片一部分傳輸損耗的。

騰訊云此次發布的新一代HCC，在網絡層面，利用自研的星脈網絡為新一代集群帶來了3.2T超高通信帶寬。實測結果顯示，搭載同樣的GPU，3.2T星脈網絡相較1.6T網絡，能讓集群整體算力提升20%。

存儲層面，訓練場景下，幾千臺計算節點會同時讀取一批數據集，需要盡可能縮短數據集的加載時長。騰訊云的新一代集群，引入了自研的文件存儲、對象存儲架構，具備TB級吞吐能力和千萬級IOPS，可支持不同場景下對存儲的需求。

底層架構之上，針對大模型訓練場景，新一代集群集成了騰訊云自研的TACO Train訓練加速引擎，對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化，大幅節約訓練調優和算力成本。

另外值得關注的是，騰訊多款自研芯片也已經量產。其中，用于AI推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊內部交付使用。據騰訊云披露，紫霄目前已經在騰訊頭部業務規模部署，可提供高達3倍的計算加速性能和超過45%的整體成本節省。

數據顯示，騰訊云目前的分布式云原生調度總規模超過1.5億核，并提供16 EFLOPS（每秒1600億億次浮點運算）的智算算力。對于近半年突然火熱的AI大模型，宋丹丹表示，市場環境的變化沒有打亂騰訊云的產品規劃，但確實是讓產品節奏提前了，因為AI業務和計算算力是相互促進的，AI技術迭代對算力提出更高的要求，那我們也會有更高的動力去讓算力產品更快演進。

標簽：