21世紀(jì)經(jīng)濟(jì)報(bào)道記者白楊 北京報(bào)道
(資料圖片僅供參考)
隨著AI大模型參數(shù)量從億級(jí)飆升到萬億級(jí),人們對(duì)于支撐大模型訓(xùn)練的超大規(guī)模算力也越發(fā)關(guān)注。而談及算力,GPU自然是核心話題,但是,GPU也不是唯一。
因?yàn)榇竽P妄嫶蟮挠?xùn)練任務(wù),需要由大量GPU服務(wù)器組成的算力集群來提供算力,而這些服務(wù)器之間要通過網(wǎng)絡(luò)連接,進(jìn)行海量數(shù)據(jù)交換。有數(shù)據(jù)顯示,算力集群每次計(jì)算背后,服務(wù)器間的同步通信量會(huì)高達(dá)百GB。
所以單個(gè)GPU的性能再強(qiáng),如果網(wǎng)絡(luò)性能跟不上,那整個(gè)算力集群的計(jì)算能力也會(huì)大打折扣。因此,大集群不等于大算力,相反,GPU集群越大,產(chǎn)生的額外通信損耗越多。
據(jù)悉,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。
這也進(jìn)一步說明,大模型發(fā)展是典型的木桶效應(yīng),任何一塊短板,都會(huì)影響整體的性能。而大帶寬、高利用率、信息無損,則是AI大模型時(shí)代網(wǎng)絡(luò)能力面臨的核心挑戰(zhàn)。
針對(duì)網(wǎng)絡(luò)能力,6月26日,騰訊云首次對(duì)外完整披露了其自研的星脈高性能計(jì)算網(wǎng)絡(luò)。據(jù)介紹,星脈網(wǎng)絡(luò)具備3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升。基于騰訊云新一代算力集群HCC,可支持10萬卡的超大計(jì)算規(guī)模。
騰訊云副總裁王亞晨表示,星脈網(wǎng)絡(luò)在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等方面,進(jìn)行了軟硬一體的升級(jí)和創(chuàng)新,是為大模型而生的網(wǎng)絡(luò)架構(gòu)。
其中在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺(tái),采用全自研設(shè)備構(gòu)建互聯(lián)底座,可實(shí)現(xiàn)自動(dòng)化部署和配置;在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,能夠?qū)崟r(shí)監(jiān)測(cè)并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點(diǎn)之間的通信需求,使集群通信效率達(dá)90%以上。
此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫TCCL,通過融入定制化解決方案,使系統(tǒng)實(shí)現(xiàn)了微秒級(jí)感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動(dòng)態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時(shí)延降低40%。
王亞晨表示,網(wǎng)絡(luò)的可用性,也決定了整個(gè)集群的計(jì)算穩(wěn)定性。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),讓整體故障的排查時(shí)間由天級(jí)降低至分鐘級(jí)。同時(shí),大模型訓(xùn)練系統(tǒng)的整體部署時(shí)間也從19天縮減至4.5天。
在AI大模型的推動(dòng)下,網(wǎng)絡(luò)技術(shù)正在加速演進(jìn)。而騰訊云星脈網(wǎng)絡(luò)背后,也是騰訊過去三代網(wǎng)絡(luò)技術(shù)演進(jìn)的成果。
在騰訊發(fā)展初期,數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò)設(shè)備,搭建標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),支撐QQ在線人數(shù)增長超過1億,服務(wù)器規(guī)模增長超10萬。
隨著大數(shù)據(jù)和云計(jì)算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶對(duì)網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求。數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r(shí)承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),騰訊云開始構(gòu)建全自研網(wǎng)絡(luò)設(shè)備與管理系統(tǒng),打造超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò),服務(wù)器規(guī)模近200萬臺(tái)。
而隨著AI大模型的出現(xiàn),騰訊云推出的星脈網(wǎng)絡(luò),采用了東西向、南北向流量的分離架構(gòu),并構(gòu)建了獨(dú)立的超大帶寬、符合AI訓(xùn)練流量特征的網(wǎng)絡(luò)架構(gòu),配合自研軟硬件設(shè)施,實(shí)現(xiàn)整套系統(tǒng)的自主可控,也能滿足超強(qiáng)算力對(duì)網(wǎng)絡(luò)性能的新需求。
據(jù)悉,騰訊云此前發(fā)布的新一代HCC高性能計(jì)算集群,正是基于星脈網(wǎng)絡(luò)打造,可以實(shí)現(xiàn)3.2T超高互聯(lián)帶寬,算力性能較前代提升了3倍。
標(biāo)簽:
6月26日,央行授權(quán)中國外匯交易中心公布,銀行間外匯市場(chǎng)人民幣對(duì)美元
金融界6月26日消息近日,科興制藥獲工銀瑞信、博時(shí)基金等機(jī)構(gòu)調(diào)研。調(diào)
智通財(cái)經(jīng)APP獲悉,德國6月IFO商業(yè)預(yù)期指數(shù)從上月的88 3降至83 6,為今
6月26日,央行授權(quán)中國外匯交易中心公布,銀行間外匯市場(chǎng)人民幣對(duì)美元
金融界6月26日消息著名企業(yè)家馮侖近日在一場(chǎng)直播中分享關(guān)于人口的觀點(diǎn)
金融界6月26日消息近日,科興制藥獲工銀瑞信、博時(shí)基金等機(jī)構(gòu)調(diào)研。調(diào)
智通財(cái)經(jīng)APP獲悉,德國6月IFO商業(yè)預(yù)期指數(shù)從上月的88 3降至83 6,為今
6月26日盤前,城發(fā)環(huán)境(000885 SZ)一邊回復(fù)深交所的關(guān)注函,一邊發(fā)出
端午節(jié)前曾跌停的超訊通信(603322),節(jié)后第一個(gè)交易日即6月26日再遇跌
隨著“90后”和“95后”等新一代年輕父母成為母嬰市場(chǎng)的主力消費(fèi)群體,
智通財(cái)經(jīng)APP獲悉,華爾街知名空頭、摩根士丹利策略師MichaelWilson表示
旗袍,中國和世界華人女性的傳統(tǒng)服裝,被譽(yù)為中國國粹和女性國服。雖然其定義和產(chǎn)生的時(shí)間至今還存有諸多爭(zhēng)議,但它仍然是中國悠久服飾文化
7月21日,北京市政府發(fā)布《北京市電影局關(guān)于在疫情防控常態(tài)化條件下有序推進(jìn)電影院恢復(fù)開放的通知》,宣布全市低風(fēng)險(xiǎn)地區(qū)影院,可于7月24日
?武漢7·16渡江節(jié)組委會(huì)14日發(fā)布公告,由于長江武漢關(guān)水位超警戒水位,按照規(guī)定取消2020年第46屆武漢7·16渡江節(jié)。受近期持續(xù)強(qiáng)降雨影響,
過去一段時(shí)間,國家級(jí)非遺項(xiàng)目灰塑傳承人邵成村,多次在陳家祠等工作現(xiàn)場(chǎng),向身邊那些帶著好奇目光的人們講解灰塑的種種技術(shù)細(xì)節(jié):草根灰、
7月13日,位于璧山區(qū)南門唐城夜市街區(qū)的璧山冷酒夜市開街。這是璧山區(qū)打造夜間經(jīng)濟(jì)消費(fèi)載體、培育夜間經(jīng)濟(jì)活動(dòng)品牌的舉措之一。璧山市民一