微波爐的發(fā)明是源于雷達(dá)研究的結(jié)果;鋼筋混凝土安全槽增加牽引摩擦力以防止受傷,最初是為了減少濕滑跑道上的飛機(jī)事故;固態(tài)特異纖維材料比鋼強(qiáng)五倍,能夠幫助NASA的海盜飛船登陸火星,而這種材料之后被用來創(chuàng)造具有超長(zhǎng)使用壽命的花紋輪胎。上述這些例子都是科學(xué)技術(shù)在其最初僅僅是作為尖端科學(xué)實(shí)驗(yàn),而后被運(yùn)用于主流應(yīng)用的典型案例。而超級(jí)計(jì)算機(jī)技術(shù)無疑也將以同樣的方式進(jìn)入并影響數(shù)據(jù)中心。
超級(jí)計(jì)算機(jī)是由什么組成的?
今天,絕大多數(shù)超級(jí)計(jì)算機(jī)都是龐大的集群服務(wù)器,與高性能網(wǎng)絡(luò)捆綁在一起的;那些經(jīng)典的Cray向量超級(jí)計(jì)算機(jī)的日子已經(jīng)一去不復(fù)返了。大量并行的大規(guī)模模擬的建立,應(yīng)用程序工作負(fù)載被分布在服務(wù)器節(jié)點(diǎn),通過共享通信結(jié)構(gòu)傳遞信息。服務(wù)器節(jié)點(diǎn)通常配備浮點(diǎn)重CPU(floating-point-heavy CPU)和基于GPU數(shù)學(xué)的加速器,享有大型主機(jī)存儲(chǔ)器,但它們本質(zhì)上僅僅只是Linux服務(wù)器。
大多數(shù)超級(jí)計(jì)算機(jī)將其存儲(chǔ)連接到相同的通信結(jié)構(gòu)用于處理器之間的通信。存儲(chǔ)也必須是并行的,方便在失敗的情況下定期檢查點(diǎn)快速保存仿真狀態(tài),以及大型數(shù)據(jù)集加載?;ミB因此是一個(gè)統(tǒng)一的架構(gòu)承載管理,計(jì)算和存儲(chǔ)流量通過一根光纖連接到每個(gè)節(jié)點(diǎn)。
超級(jí)計(jì)算機(jī)的性能如何最終是由預(yù)算決定的。正是出于這個(gè)原因,基于商品標(biāo)準(zhǔn)的硬件組件是優(yōu)選。一個(gè)開放的標(biāo)準(zhǔn)被稱為InfiniBand(IB)自其推出以來一直占據(jù)群集互連領(lǐng)域的主導(dǎo)地位,其具體的規(guī)范首先是由一個(gè)包括惠普、IBM、英特爾和微軟在內(nèi)的行業(yè)協(xié)會(huì)于1999年發(fā)布的。
InfiniBand具有重要的屬性,包括極端的可擴(kuò)展性,低延遲(端到端亞微秒級(jí)),高帶寬(每端口100Gbps)和硬件卸載,包括一個(gè)非常強(qiáng)大的功能,稱為RDMA(遠(yuǎn)程直接內(nèi)存訪問)。RDMA允許數(shù)據(jù)以線速?gòu)囊粋€(gè)應(yīng)用程序的存儲(chǔ)器空間流“零拷貝”到駐留在不同的服務(wù)器上的另一應(yīng)用程序上,所有這些都沒有操作系統(tǒng)的干預(yù),甚至沒有CPU的干預(yù)。這種功能加快了數(shù)據(jù)移動(dòng)擴(kuò)展內(nèi)存的速度,而不僅僅是CPU核心速度(其已然停滯不前)。
對(duì)于那些有興趣了解更多關(guān)于IB的讀者,InfiniBand貿(mào)易協(xié)會(huì)提供了更多詳細(xì)信息。
這對(duì)數(shù)據(jù)中心而言意味著什么?
為了更好的平衡,大型服務(wù)器場(chǎng)的設(shè)計(jì)需要兼顧計(jì)算,存儲(chǔ)和網(wǎng)絡(luò)性能。許多因素都揭示了傳統(tǒng)的,已經(jīng)有37年歷史的TCP/IP以太網(wǎng)是鏈接中的薄弱環(huán)節(jié):
固態(tài)硬盤(SSD)正在穩(wěn)步取代旋轉(zhuǎn)存儲(chǔ),而不只是在其早期的關(guān)鍵應(yīng)用,如數(shù)據(jù)庫(kù)索引和元數(shù)據(jù)存儲(chǔ)。傳統(tǒng)的NAS互連,能夠隱藏幾十毫秒的旋轉(zhuǎn)磁盤延遲突然被認(rèn)為是阻礙固態(tài)硬盤及微秒級(jí)的響應(yīng)時(shí)間。固態(tài)硬盤還提供數(shù)量級(jí)的吞吐量的增加,再次加強(qiáng)舊的互連。
統(tǒng)一線纜改善多系統(tǒng)級(jí)度量指標(biāo),如資本成本,氣流,散熱,管理的復(fù)雜度和每臺(tái)主機(jī)信道接口的數(shù)量,因?yàn)樗麄冏钚』W(wǎng)絡(luò)適配器,電纜和開關(guān)。這些特點(diǎn)使它們非??扇?。微型和刀片服務(wù)器的外形因素使其每個(gè)節(jié)點(diǎn)不能獨(dú)立承擔(dān)三個(gè)獨(dú)立的接口。由于其耗流量控制和高延遲,TCP/ IP以太網(wǎng)與高性能的存儲(chǔ)網(wǎng)絡(luò)的匹配非常糟糕。
因?yàn)橥鶑?qiáng)調(diào)東西方向的流量,當(dāng)前的數(shù)據(jù)中心工作流程的要求,需要新的結(jié)構(gòu)拓?fù)?。以太網(wǎng)生成樹的限制妨礙了高效的實(shí)現(xiàn),如“胖樹”以交換機(jī)之間聚集的樹干為特色。
為覆蓋每個(gè)芯片上的大量CPU內(nèi)核,許多核心處理器使用數(shù)十億個(gè)晶體管,服務(wù)器芯片朝這方面發(fā)展的趨勢(shì)非常強(qiáng)烈。很容易看出,網(wǎng)絡(luò)能力必須按比例和規(guī)模從根本上保持架構(gòu)的平衡,否則核心將永遠(yuǎn)是等待網(wǎng)絡(luò)I/O的狀態(tài)。
通過虛擬化部署,單臺(tái)物理機(jī)現(xiàn)在可以包含多臺(tái)虛擬機(jī)。這種配置的效果已經(jīng)進(jìn)一步加強(qiáng)了每個(gè)插座的網(wǎng)絡(luò)性能要求,推進(jìn)超級(jí)計(jì)算機(jī)類負(fù)載水平。例如,一個(gè)運(yùn)行在千兆以太網(wǎng)的TCP / IP協(xié)議??赡苄枰哌_(dá)1GHz的CPU性能;現(xiàn)在,超過20臺(tái)這樣的機(jī)器只需要一個(gè)單一的節(jié)點(diǎn),甚至許多核心CPU在一款應(yīng)用程序的一個(gè)周期之前都將因OS而飽和。
無論怎么看,InfiniBand都能夠輕易地解決這一切挑戰(zhàn),同時(shí)也提供了平滑的過渡路徑。例如,通過IPoIB,InfiniBand可以以很快的速度承載傳統(tǒng)的IP流量,雖然這種能力不會(huì)立即公開顯示出所有協(xié)議的好處,但其提供了一個(gè)實(shí)現(xiàn)更有效的橋梁,被可以隨時(shí)間推移而進(jìn)一步發(fā)展。此外,與人們普遍的誤解相反,InfiniBand實(shí)際上是最具成本效益的協(xié)議,如果能夠統(tǒng)一部署,一定能大幅降低成本。
InfiniBand的時(shí)代到來
顯然,更高效的數(shù)據(jù)中心可以通過一個(gè)開放的標(biāo)準(zhǔn)的超級(jí)計(jì)算機(jī)互連來實(shí)現(xiàn)。但I(xiàn)nfiniBand在所有的原始性能和規(guī)模生產(chǎn)部署背后是否有足夠的深度?
InfiniBand最初的實(shí)現(xiàn),是由于標(biāo)準(zhǔn)的精確無損流量控制方案,僅限于機(jī)架之間很短的鏈接。這種部署缺乏安全機(jī)制,如鏈路加密,并被僅限在單個(gè)子網(wǎng)的拓?fù)浣Y(jié)構(gòu)。由先進(jìn)的軍事網(wǎng)絡(luò)所領(lǐng)軍,其他的早期采用社區(qū)和技術(shù)創(chuàng)新已經(jīng)轉(zhuǎn)移到服務(wù)于這些市場(chǎng),今天的InfiniBand解決方案意味著跨越全球距離的標(biāo)準(zhǔn)光纖基礎(chǔ)設(shè)施,提供強(qiáng)大的鏈路加密和多子網(wǎng)分割的手段。早在1999年,InfiniBand的設(shè)計(jì)是用來分離數(shù)據(jù)和控制平面,其成為了第一款軟件定義的網(wǎng)絡(luò)(SDN)。這種新技術(shù)的采用者們將受益于超級(jí)計(jì)算機(jī)和超級(jí)通信空間相對(duì)較快的創(chuàng)新。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。