在例行確認“天河二號”各項參數(shù)準(zhǔn)確無誤后,國家超級計算廣州中心應(yīng)用部工程師陳璟錕開始處理來自世界各地客戶的技術(shù)方案。陳璟錕看起來并不善于交流,但一聊起“天河二號”,就似遇見多年的好友,滔滔不絕。
去年底,新一期全球超級計算機500強榜單在美國公布,中國“天河二號”超級計算機連續(xù)第六度稱雄。
“天河二號”六度奪冠的背后是越來越多像陳璟錕一樣的年輕人,日復(fù)一日地為超級大腦保駕護航。目前,超算中心已構(gòu)建起材料科學(xué)與工程計算、生物計算與個性化醫(yī)療、智慧城市大數(shù)據(jù)和云計算等6大應(yīng)用服務(wù)平臺。共有48名工作人員,其中技術(shù)人員有30名。
走進廣州超算中心,一排排狹長的黑色機柜整齊地擺放在接近三個籃球場那么大的實驗室中。陳璟錕告訴記者,“天河二號”由170個機柜組成,一共裝有3.2萬顆主CPU和4.8萬個協(xié)處理器。雖然每排機柜彼此分開,但它們工作時是彼此相聯(lián)的,其實是一臺計算機。
計算速度快,存儲量大,體積也非常大,這是記者看到超級計算機時最直觀的感受。要保證“國之重器”的正常運行,首先需要保證水電不斷。
“基本上我每天來到中心的第一件事就是檢查系統(tǒng)是否正常。比如,能否正常登陸、資源有沒有分配好等,保證整個機器的運行。”這是陳璟錕每天必做的事情。
點亮機柜上的觸控屏,看了看各項參數(shù),“今天的水溫稍微有點高”。陳璟錕告訴記者,機柜負荷運行時,會散發(fā)出大量熱量,廣州超算中心采用的是“水冷”系統(tǒng),這也是為何一進超算中心大門便感到?jīng)隹斓脑颉?ldquo;8℃的水從水廠泵過來,經(jīng)過超算中心內(nèi)循環(huán)交換,出水21℃。”
陳璟錕還告訴記者,從目前“天河二號”來看,計算節(jié)點的能耗約為18兆瓦,再加上散熱系統(tǒng)的整體能耗在20兆瓦以上。如果正常運行,年耗電量約為2億度。每個星期電費大約在80萬元左右。
據(jù)了解,超算中心不僅有固定的運維人員保證“天河二號”平穩(wěn)運行,同時,無論供電、供水都是“特別配置”。為了保障機器不因斷電而數(shù)據(jù)丟失,南方電網(wǎng)為超算中心建設(shè)了兩路獨立并互為備份的電源。在供水方面,廣州市政府在距離超算中心3公里以外建了一個冷水廠,專門供中心使用。
由于超級計算機的基本組成組件與個人電腦的概念無太大差異,所以很多人會誤以為超級計算機就是簡單的cpu疊加。但這是一個認識誤區(qū)。
袁學(xué)鋒打了個比方:你用1000臺PC,用普通的網(wǎng)線把它們連接在一起,你可能花了1萬度電,算了10天,但是你用真正的超級計算機,可能只用5000度電,花了兩天就算出來了。
“超級計算機就好比算盤,如果沒有口訣,它就毫無用處。”國家超級計算機廣州中心應(yīng)用部工程師鐘康游解釋道。對于超級計算機而言,要讓它真正運行起來,也需要各種口訣,但這些口訣更龐大、更復(fù)雜。目前科學(xué)界把這個算法稱為超級算法理論。
超算中心的工程師們,每天花大量的時間,在優(yōu)化“口訣”,找出更高效率的計算方法,最大限度地充分利用超級計算機的計算能力。
“有些客戶想要運行一些很龐大的程序,操作比較復(fù)雜,但客戶往往還停留在‘雙擊’啟動的操作習(xí)慣,就得由我們來優(yōu)化‘口訣’,讓操作更‘傻瓜’。”鐘康游形象地說,簡單來說優(yōu)化“口訣”就是“木桶效應(yīng)”原理。一個木桶能裝多少水,取決于最短的一塊板。而一個程序運行的速度,取決于跑得最慢的那個進程。“我們要做的就是通過一些小技巧,盡可能地使所有進程加快。優(yōu)化后,原來需要11小時才能出的結(jié)果,現(xiàn)在只需3小時。”
袁學(xué)鋒表示,目前,天河二號可以連續(xù)運行10小時無故障,穩(wěn)定性全球第一。計算機運行過程中,最核心的是高速互聯(lián)??梢韵胂蟪墒菐兹f臺的PC聯(lián)在一起做并行計算。而做并行計算的核心就是通訊,使大規(guī)模的系統(tǒng)能同步。因此我們要構(gòu)架足夠短的距離,使通訊速度足夠快、穩(wěn)定和可靠。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。