7月28日消息,Meta發(fā)布的一份研究報(bào)告顯示,其用于訓(xùn)練4050億參數(shù)模型Llama3的16384個(gè)英偉達(dá)H100顯卡集群在54天內(nèi)出現(xiàn)了419次意外故障,平均每三小時(shí)就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存(HBM3)引起的。
Meta訓(xùn)練Llama3遭遇頻繁故障:16384塊H100GPU訓(xùn)練集群每3小時(shí)“罷工”一次
由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步,單個(gè)顯卡故障可能導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷,需要重新開(kāi)始。盡管如此,Meta團(tuán)隊(duì)還是保持了90%以上的有效訓(xùn)練時(shí)間。
在為期54天的預(yù)訓(xùn)練中,共出現(xiàn)了466次工作中斷,其中47次是計(jì)劃中斷,419次是意外中斷。計(jì)劃內(nèi)的中斷是由于自動(dòng)化維護(hù)造成的,而意外的中斷則主要源于硬件問(wèn)題。GPU問(wèn)題是導(dǎo)致故障的主要原因,占意外中斷的58.7%。其中只有三起事件需要大量人工干預(yù),其余的由自動(dòng)化管理。
Meta訓(xùn)練Llama3遭遇頻繁故障:16384塊H100GPU訓(xùn)練集群每3小時(shí)“罷工”一次
在419個(gè)意外中斷中,148個(gè)(30.1%)是由各種GPU故障(包括NVLink故障)引起的,而72個(gè)(17.2%)是由GPU的HBM3內(nèi)存故障引起的。有趣的是,54天內(nèi)只有兩個(gè)CPU發(fā)生故障。41.3%的意外中斷是由多種因素造成的,包括軟件錯(cuò)誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。
為提高效率,Meta團(tuán)隊(duì)開(kāi)發(fā)了一系列工具和優(yōu)化策略,包括縮短任務(wù)啟動(dòng)和檢查點(diǎn)時(shí)間、利用PyTorch的NCCL飛行記錄器診斷性能問(wèn)題、識(shí)別拖后顯卡等。此外,Meta還關(guān)注到了環(huán)境因素的影響,如午間溫度波動(dòng)對(duì)GPU性能的輕微影響,以及巨量GPU同時(shí)運(yùn)行對(duì)數(shù)據(jù)中心電網(wǎng)的巨大壓力。
然而,隨著人工智能模型參數(shù)量的不斷增加,所需的計(jì)算資源也隨之?dāng)U大。以xAI計(jì)劃中的10萬(wàn)塊H100顯卡集群為例,故障率可能會(huì)成倍增長(zhǎng),給未來(lái)的AI訓(xùn)練帶來(lái)更大的挑戰(zhàn)。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。