歐洲原子能研究機(jī)構(gòu)(CERN)成立于1954年,是世界最大的粒子物理研究中心。一直以來,CERN憑借強(qiáng)大的計算能力,為遍布48個國家270個研究中心的17000余名科研人員在全球范圍內(nèi)展開合作、共同破解物質(zhì)和宇宙的種種奧秘提供著堅實的保障。
為進(jìn)一步加快研究進(jìn)展,CERN啟動了當(dāng)今世界最大的強(qiáng)子對撞機(jī)LHC的建設(shè)。LHC位于日內(nèi)瓦附近瑞士和法國交界地區(qū)地下100米深處、周長約27公里的環(huán)形隧道內(nèi),其物理實驗對粒子物理基本理論的檢驗和探索新的突破,起到至關(guān)重要的作用。尤其是對宇宙起源和尋找新粒子Higgs的探索,可能發(fā)現(xiàn)超出標(biāo)準(zhǔn)模型的新物理規(guī)律,而導(dǎo)致粒子物理學(xué)的重大突破,使人類對微觀世界的認(rèn)識進(jìn)入一個新的階段。
LHC項目中大多數(shù)應(yīng)用程序是高度專業(yè)化的,需要非常好的持續(xù)性,這給支撐該項目的計算機(jī)集群管理帶來了新的挑戰(zhàn)。支持LHC項目的新計算機(jī)集群由200臺服務(wù)器組成,但新集群的整體利用率卻只有10%左右,負(fù)責(zé)處理LHC數(shù)據(jù)的研究中心部門主管Helge Meinard博士表示:在啟動諸如大型強(qiáng)子對撞機(jī)(LHC)這樣的項目時,我們必須保證所有計算能力都得到充分的利用。為了提高服務(wù)器利用率,CERN對服務(wù)器進(jìn)行了虛擬化。新的虛擬化集群支持HyperV和Xen等多種虛擬機(jī)管理程序,這為實驗團(tuán)隊帶來了更大的靈活性,可以為自己的應(yīng)用程序選用最好的平臺,但同時,多種虛擬化技術(shù)的使用給整個集群環(huán)境增添了管理的復(fù)雜性。CERN決定采用Platform ISF解決方案管理LHC集群工作負(fù)載,同時作為管理虛擬環(huán)境和物理環(huán)境的工具,以實現(xiàn)構(gòu)建經(jīng)濟(jì)高效、能夠管理任何服務(wù)器上虛擬機(jī)管理程序和操作系統(tǒng)、共享的計算基礎(chǔ)設(shè)施的目標(biāo)。
我們最終選擇Platform作為合作伙伴,幫助我們擴(kuò)展和最大限度地優(yōu)化獨一無二的高性能計算(HPC)環(huán)境,為我們整個科學(xué)研究團(tuán)隊發(fā)掘和探索宇宙的奧秘搭建理想的平臺。CERN結(jié)構(gòu)基礎(chǔ)設(shè)施(Fabric Infrastructure)小組負(fù)責(zé)人Tony Cass博士說:CERN從1997年就開始使用Platform LSF管理工作負(fù)載,Platform LSF同樣適用于LHC。特別是當(dāng)需要添加云功能時,與Platform LSF來自同一廠商的Platform ISF看起來再合適不過了。
作為一款集中管理異構(gòu)的虛擬和物理資源的云基礎(chǔ)架構(gòu)管理平臺,Platform ISF為運(yùn)行在其上的各種應(yīng)用提供了快速部署、動態(tài)資源調(diào)度和彈性計算的資源管理和調(diào)度平臺。它提供的IaaS功能幫助客戶實現(xiàn)自助式按需的計算、網(wǎng)絡(luò)、存儲資源的申請和使用。更重要的是,它還能使中間件和分布式應(yīng)用軟件更加方便、快速地遷移至云平臺并具備提供PaaS(平臺即服務(wù))和SaaS(軟件即服務(wù))的能力,確保中間件和分布式應(yīng)用軟件的提供者更加專注于自身應(yīng)用邏輯,無需考慮對底層計算、存儲、網(wǎng)絡(luò)資源的調(diào)度和管理。
Platform ISF為CERN的大批科學(xué)家提供了一整套私有云計算基礎(chǔ)架構(gòu),為多個虛擬和物理平臺提供了高效的工作負(fù)載應(yīng)用管理。Platform ISF將不同平臺組合到單一動態(tài)的共享基礎(chǔ)架構(gòu)當(dāng)中,在資源較少的情況下顯著地提高了平臺利用率。此外,廣大科學(xué)家還可以選擇自己的應(yīng)用環(huán)境,動態(tài)控制項目,確保自身能夠充分發(fā)揮私有云的功效,而所有這一切都是在前所未有的低成本狀態(tài)下實現(xiàn)的。
此外,Platform ISF讓CERN對集群環(huán)境擁有了更大的控制權(quán),而且通過自動處理虛擬機(jī)管理程序不但實現(xiàn)許多任務(wù)的自動化管理,簡化了管理工作,還提高了管理效率。Platform ISF可以管理資源和應(yīng)用環(huán)境,并提供讓用戶能夠根據(jù)需要來預(yù)留和使用資源的契約接口。
Platform ISF具有的獨立性讓CERN很感興趣,Cass說:CERN的科研環(huán)境高度重視能夠順應(yīng)新發(fā)展形勢的工具,而不是讓我們被舊形勢所束縛,Platform ISF做到了。
CERN將Platform ISF部署在一個支持LHC的集群上,而將Platform ISF Adaptive Cluster部署在由 3800臺多核服務(wù)器組成、負(fù)責(zé)進(jìn)行批處理工作的HPC集群上,這讓CERN可以通過私有云計算環(huán)境,在必要時共享不同集群之間的資源。Cass說:Platform ISF Adaptive Cluster可以與現(xiàn)有的Platform LSF網(wǎng)格工作負(fù)載管理解決方案結(jié)合起來,為我們的用戶和研究中心提供利用共享數(shù)據(jù)中心資源來管理集群所需的可擴(kuò)展性和靈活性,同時符合我們對開放標(biāo)準(zhǔn)的要求。
Platform ISF還幫助CERN減少了專用的LHC集群服務(wù)器數(shù)量并減輕管理負(fù)擔(dān)。過去,在靜態(tài)資源環(huán)境中,利用Platform LSF可以減少管理日常應(yīng)用的工作量;而現(xiàn)在,Platform ISF通過將耗時的人工管理轉(zhuǎn)變?yōu)樽詣踊馁Y源調(diào)配和管理,使我們能更有效地管理虛擬機(jī)和物理機(jī)組成的混合環(huán)境。Cass博士進(jìn)一步解釋說:通過提高服務(wù)器利用率,如果能從現(xiàn)有的LHC環(huán)境中減少150臺服務(wù)器(原來是200臺服務(wù)器),那么我們就可以大幅度節(jié)省電力和冷卻成本,并且能在不增加硬件預(yù)算的前提下,把服務(wù)器重新部署到批處理集群中去;如果能利用Platform ISF提供的自動配置服務(wù)器功能滿足實驗團(tuán)隊提出來的工作負(fù)載要求,就將減輕我們的管理負(fù)擔(dān)。Cass預(yù)測,使用Platform ISF后,CERN有望大幅減少重新配置批處理集群以滿足不斷變化的工作負(fù)載所需的工作量。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。