在第八屆未來(lái)網(wǎng)絡(luò)發(fā)展大會(huì)上,中國(guó)電信研究院發(fā)布了《分布式智算中心無(wú)損網(wǎng)絡(luò)技術(shù)白皮書(shū)》(以下簡(jiǎn)稱(chēng)“白皮書(shū)”)。白皮書(shū)首次明確提出了分布式智算中心無(wú)損網(wǎng)絡(luò)總體架構(gòu)以及長(zhǎng)距無(wú)損、超大帶寬、超高可靠、彈性敏捷、智慧運(yùn)維五大技術(shù)特征。
該白皮書(shū)提出的總體架構(gòu)及關(guān)鍵技術(shù)應(yīng)用于業(yè)界首個(gè)百公里、千卡、千億參數(shù)大模型分布式訓(xùn)練現(xiàn)網(wǎng)試驗(yàn),分布式訓(xùn)練性能達(dá)到集中式單智算中心訓(xùn)練性能的95%以上,為建設(shè)超大規(guī)模智算集群提供新思路。
隨著人工智能的浪潮來(lái)襲,以大模型為代表的智算中心解決方案逐步深入千行百業(yè),算力需求日益攀升,智算基礎(chǔ)設(shè)施的重要性進(jìn)一步凸顯,但同時(shí)也面臨組網(wǎng)、通信、能耗、成本等多重挑戰(zhàn)。為解決智算中心單點(diǎn)算力規(guī)模建設(shè)受限的問(wèn)題,中國(guó)電信提出“以網(wǎng)強(qiáng)算”的技術(shù)路線,通過(guò)將IP技術(shù)與光傳輸技術(shù)的協(xié)同創(chuàng)新,將相距百公里的多個(gè)智算中心連成一個(gè)更大規(guī)模的智算集群,補(bǔ)齊單點(diǎn)算力規(guī)模不足的差距。
針對(duì)跨智算中心構(gòu)建超大規(guī)模智算集群過(guò)程中遇到的問(wèn)題和挑戰(zhàn),白皮書(shū)中詳細(xì)闡述了實(shí)現(xiàn)上述目標(biāo)所需的核心技術(shù),包括網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)、交換機(jī)精準(zhǔn)流控技術(shù)、異構(gòu)集合通信優(yōu)化技術(shù)、全流可視化技術(shù)、800G C+L傳輸技術(shù)、WSON重路由技術(shù)、波長(zhǎng)級(jí)動(dòng)態(tài)拆建技術(shù)、告警根因識(shí)別技術(shù)等,為分布式智算中心無(wú)損網(wǎng)絡(luò)建設(shè)發(fā)揮積極的引領(lǐng)和示范效應(yīng)。
面向未來(lái),中國(guó)電信將堅(jiān)持“以網(wǎng)強(qiáng)算”的技術(shù)路線,打造面向智算業(yè)務(wù)的新型基礎(chǔ)設(shè)施,以高性能智算網(wǎng)絡(luò)作為提升集群算力性能的關(guān)鍵抓手,突破智能算力供給瓶頸,在賦能智算基礎(chǔ)設(shè)施方面發(fā)揮更加重要的作用,為經(jīng)濟(jì)社會(huì)發(fā)展注入新的動(dòng)力。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。