21世紀經濟報道記者白楊 北京報道
4月14日,騰訊云正式發布新一代HCC(High-Performance Computing Cluster)高性能計算集群。據悉,該集群采用騰訊云星星海自研服務器,搭載英偉達最新代次H800 GPU,服務器之間采用3.2T超高互聯帶寬,可為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。
騰訊云的實測數據顯示,新一代集群的算力性能較前代提升高達3倍,是目前國內性能最強的大模型計算集群。去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練,當時的訓練時間為11天,如果基于新一代集群,訓練時間將縮短至4天。
【資料圖】
在AI大模型火熱的當下,算力也成為業界關注的重點。這是因為在大模型的訓練過程中,算力、算法和數據缺一不可。隨著圍繞AI大模型的全球軍備競賽打響,業界對算力的需求也更加旺盛。
去年,有研究機構預估,未來對一個大模型訓練所需的算力,可能每三、四個月就需要翻一番,這意味著一年就要增加10倍。而今年在ChatGPT的推動下,算力的增長也將進一步提速。
騰訊云異構計算產品總監宋丹丹此前接受21世紀經濟報道記者采訪時表示,大模型對算力的要求分為訓練和推理兩個階段。其中,訓練需要短時間內并行算力非常全且非常大,并且要在短時間內能夠交付,所以對算力的量級、算力的穩定性彈性擴容能力都有較高的要求。
現階段,AI大模型正處于訓練需求的爆發期,大家都需要海量的可擴縮容的高性能算力,而且這些算力需要穩定交付和計算。所以對云廠商來說,目前正迎來一個全新的市場機遇。
過去幾年,算力其實也在因需而變,以往的計算已經變成了智算。所謂智算,也稱異構計算,是用不同制程架構、不同指令集、不同功能的硬件組合起來解決問題的計算架構。例如,相對于只用CPU的通用計算,在服務器里使用CPU+GPU就是異構計算。
智算背后的邏輯,是讓最適合的專用硬件去做最適合的事。GPU在并行計算任務為主的AI訓練/推理和圖形圖像處理等專用場景上,比傳統CPU效率更高且延遲更低。
騰訊云此次發布的HCC,也是利用并行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。除此之外,騰訊云新一代HCC備受關注的原因,是它在國內首發了英偉達H800 GPU。
資料顯示,H800是英偉達新代次處理器,基于Hopper架構,對跑深度推薦系統、大型AI語言模型、基因組學、復雜數字孿生等任務的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達到3 TB/s。
雖然論性能,H800并不是最強的,但由于美國的限制,性能更強的H100無法供應給中國市場。有業內人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。
芯片受限,固然是個卡脖子難題,也需要投入更多力量去解決。但從AI大模型訓練的角度,近日多位AI行業人士在接受記者采訪時均提出,算力的提升不是單純堆卡,而是存在“木桶效應”,計算、存儲、網絡一旦出現瓶頸就會導致運算速度嚴重下降。光增加GPU卡或計算節點,但網絡時延沒降低,并不能線性地提升算力收益。
所以,用上了先進芯片并不代表就擁有了先進算力。以算力對網絡的要求為例,目前GPU并行是大模型訓練的必備技術,不同于傳統并行以加快計算速度為目的,大模型的并行計算往往還要考慮怎樣將龐大的參數有機地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓練部署。
即使是目前業界已有的GPU分布式訓練方案,也嚴重依賴于服務器之間的通信、拓撲、模型并行、流水并行等底層問題的解決情況。如果只有分布式訓練框架,甚至都無法正常啟動訓練過程。這也是為什么當時GPT-3已發布一年,卻只有少數企業可以復現GPT-3。
先進算力的背后,是先進芯片、先進網絡、先進存儲等一系列的支撐,缺一不可。比如在網絡層面,模型參數量越大,對帶寬的需求就越高。相比單點GPU故障只影響集群算力的千分之幾,一條鏈路的負載不均導致網絡堵塞,就會成為木桶短板,影響到數十個甚至更多GPU的連通性。在這種情況下,其他鏈路即使暢通無阻,通信時間仍然會大幅度增長,進而直接影響訓練效率。
此外,集群訓練也會引入額外的通信開銷,導致N個GPU算力達不到單個GPU算力的 N 倍。業界開源的GPU集合通信庫(比如NCCL),也不能將網絡的通信性能發揮到極致。
正因算力的“木桶效應”,也給了云廠商可施展的舞臺。通過對單機算力、網絡架構和存儲性能進行協同優化,提高算力效率,云廠商的高性能計算集群是能夠彌補芯片一部分傳輸損耗的。
騰訊云此次發布的新一代HCC,在網絡層面,利用自研的星脈網絡為新一代集群帶來了3.2T超高通信帶寬。實測結果顯示,搭載同樣的GPU,3.2T星脈網絡相較1.6T網絡,能讓集群整體算力提升20%。
存儲層面,訓練場景下,幾千臺計算節點會同時讀取一批數據集,需要盡可能縮短數據集的加載時長。騰訊云的新一代集群,引入了自研的文件存儲、對象存儲架構,具備TB級吞吐能力和千萬級IOPS,可支持不同場景下對存儲的需求。
底層架構之上,針對大模型訓練場景,新一代集群集成了騰訊云自研的TACO Train訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。
另外值得關注的是,騰訊多款自研芯片也已經量產。其中,用于AI推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊內部交付使用。據騰訊云披露,紫霄目前已經在騰訊頭部業務規模部署,可提供高達3倍的計算加速性能和超過45%的整體成本節省。
數據顯示,騰訊云目前的分布式云原生調度總規模超過1.5億核,并提供16 EFLOPS(每秒1600億億次浮點運算)的智算算力。對于近半年突然火熱的AI大模型,宋丹丹表示,市場環境的變化沒有打亂騰訊云的產品規劃,但確實是讓產品節奏提前了,因為AI業務和計算算力是相互促進的,AI技術迭代對算力提出更高的要求,那我們也會有更高的動力去讓算力產品更快演進。
標簽:
4月14日,騰訊云正式發布新一代HCC(High-PerformanceComputingCluster)高性能計算集群。據悉,該集群采用騰訊云星星海自研服務器,搭載英偉
工業和信息化部、國家發展和改革委員會、生態環境部發布關于推動鑄造和鍛壓行業高質量發展的指導意見,到2025年,鑄造和鍛壓行業總體水平進一
持續推進以社保卡為載體的長三角居民服務“一卡通”在旅游觀光、文化體驗方面實現“同城待遇”。深化文化和旅游公共服務數字化平臺的互聯互通
智通財經APP獲悉,4月14日,香港創新科技及工業局局長孫東出席數字經濟峰會2023金融科技論壇與媒體交流。孫東表示,從香港方面來說,由于OpenA
4月14日,騰訊云正式發布新一代HCC(High-PerformanceComputingCluster)高性能計算集群。據悉,該集群采用騰訊云星星海自研服務器,搭載英偉
工業和信息化部、國家發展和改革委員會、生態環境部發布關于推動鑄造和鍛壓行業高質量發展的指導意見,到2025年,鑄造和鍛壓行業總體水平進一
持續推進以社保卡為載體的長三角居民服務“一卡通”在旅游觀光、文化體驗方面實現“同城待遇”。深化文化和旅游公共服務數字化平臺的互聯互通
凈利預增超70倍,打響“開門紅”的第一炮。投資者直呼:業績大爆發!豐富高端產品矩陣,燕京U8銷量提升為利潤提升提供重要支撐。
智通財經APP獲悉,4月14日,香港創新科技及工業局局長孫東出席數字經濟峰會2023金融科技論壇與媒體交流。孫東表示,從香港方面來說,由于OpenA
智通財經APP獲悉,TechInsights近期發布的研究報告指出,2022年,全球物聯網模塊和網關市場的出貨量和收入分別同比增長了6%和18%。中國供應商
國際貨幣基金組織(IMF)亞太部副主任托馬斯·赫爾布林表示,2023年中國經濟將迎來強勁反彈,中國政府設定的5%左右的經濟增長目標與國際貨幣
近日,中溫硬釬料行業“單項冠軍示范企業”華光新材(688379 SH)發布了2022年年報。2022年,公司實現營業收入12 20億元、歸母凈利潤0 09億元。
旗袍,中國和世界華人女性的傳統服裝,被譽為中國國粹和女性國服。雖然其定義和產生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化
7月21日,北京市政府發布《北京市電影局關于在疫情防控常態化條件下有序推進電影院恢復開放的通知》,宣布全市低風險地區影院,可于7月24日
?武漢7·16渡江節組委會14日發布公告,由于長江武漢關水位超警戒水位,按照規定取消2020年第46屆武漢7·16渡江節。受近期持續強降雨影響,
過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術細節:草根灰、
7月13日,位于璧山區南門唐城夜市街區的璧山冷酒夜市開街。這是璧山區打造夜間經濟消費載體、培育夜間經濟活動品牌的舉措之一。璧山市民一