近日,中國電信統一組織,中國電信研究院、中國電信北京公司、天翼云公司共同參與,在中國電信現網上,基于800G C+L技術,為1024卡規模的分布式集群提供大容量帶寬,實現了120公里、千億參數大模型的分布式訓練,性能達到集中訓練的95%以上。
這驗證了大帶寬、高可靠、高效率光傳輸網絡為智算互聯構建堅實底座的可行性,在全球還是第一次。
隨著智算集群規模達到千卡、萬卡,所需帶寬往往高達百T比特級,甚至超P比特級,因此,光傳輸系統的大帶寬、高可靠與高效率的特點是保證分布式訓練高算效的關鍵。
針對數據傳輸的大帶寬問題,中國電信采用高階調制格式的單波長800G技術,以提高頻譜效率,配合當前的業界熱點的C+L波段技術,實現了超大傳輸帶寬。
在中國電信武清、潤澤機房之間,采用華為的傳輸設備,通過多次環回,構建了大帶寬互聯的智算驗證網,距離達到120千米。
對數據傳輸的高可靠問題,完成了鏈路誤碼、波長故障、光纖故障等異常測試試驗。
結果表明,一個800G業務波中斷,會導致超40%的算效降低,而百毫秒級以上光纖故障,會導致算效大幅下降甚至訓練中斷。
采用WSON重路由恢復技術,在兩點間將重路由恢復時間控制在50ms以內,可保證分布式智算業務的高可靠互聯,大程度釋放算效。
針對傳輸鏈路的高效率問題,中國電信提出分鐘級波長動態拆建解決方案來實現算與網的協同分時復用,有效提升網絡資源利用率。
此次驗證為跨地域、跨層級、跨主體高可靠的算力協同調度奠定基礎,標志著中國電信“云網融合”工作再上新臺階。
本文鏈接:http://www.tebozhan.com/showinfo-22-111326-0.html中國電信第一個驗證1024卡分布式計算:120公里、80萬兆網絡
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com