盡管人工智能的概念自50年代以來一直存在,但它在IT領域的主流應用程序剛剛開始出現(xiàn)。根據(jù)Gartner的研究,到2021年,深度學習和人工智能等工作量將成為數(shù)據(jù)中心設計和架構的重要因素。
AI應用程序將影響每一個垂直行業(yè)和工業(yè)領域,因此采取積極的措施來規(guī)劃、構建和培育數(shù)據(jù)中心的深度學習(deep learning)和人工智能實踐非常重要。
大多數(shù)組織還沒有實施AI。在大多數(shù)情況下,超大規(guī)模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而絕大多數(shù)終端用戶都在起步階段就舉步維艱。
Gartner研究總監(jiān)Chirag Dekate表示:“由于這是個持續(xù)變化的目標,很難初始化開發(fā)AI和深度學習環(huán)境的實踐。這個想法是驚人的,但是當您著手開發(fā)和設計解決方案時,您就開始遇到問題了,而且這是很多最終用戶當前所處的位置。”
來自存儲的挑戰(zhàn)
深度學習和AI應用程序需要大量的數(shù)據(jù)來訓練、測試和驗證神經(jīng)網(wǎng)絡算法,這可能為數(shù)據(jù)中心管理員帶來存儲挑戰(zhàn)。
Dekate表示:“如果您的機器學習算法基于回歸,您可以使用有限的數(shù)據(jù)集,但是對于更先進的高價值神經(jīng)網(wǎng)絡生態(tài)系統(tǒng),您會逐漸遇到規(guī)模問題。傳統(tǒng)的網(wǎng)絡連接存儲架構可以交付即時的結果,方便部署和開箱即用的效率,但它們也會在I/O擴展和延遲方面顯示出問題。
部分初創(chuàng)公司正在嘗試高帶寬并行文件系統(tǒng),以增加吞吐量并實現(xiàn)規(guī)?;@些還都只能算是外圍方法,Dekate表示。
并行文件系統(tǒng)涉及從元數(shù)據(jù)服務器到存儲目標的許多移動部件,必須進行優(yōu)化、調整和調試以最高效率運行。他說:“它們[并行文件系統(tǒng)]是非常復雜的,需要經(jīng)歷嚴苛的考驗。”
然而,大數(shù)據(jù)分析——另一項需要大量數(shù)據(jù)的計劃——已經(jīng)為許多IT組織提供了一個平臺,能夠重新調整存儲策略。
供職于451 Research的研究經(jīng)理Christian Perry表示:“當AI成為企業(yè)可部署的現(xiàn)實時,從存儲的角度來看,由于大數(shù)據(jù)和分析的原因,容量方面已經(jīng)解決了。物聯(lián)網(wǎng)也被寄予期望在特定組織驅動大規(guī)模應用的規(guī)劃,我認為基礎設施已經(jīng)具有處理大型存儲需求的能力。”
來自網(wǎng)絡的挑戰(zhàn)
深度學習框架的有限性產(chǎn)生了規(guī)模方面的挑戰(zhàn)——對于可擴展性的網(wǎng)絡架構,性能明顯超出單一計算節(jié)點。為了規(guī)?;蕴峁└叩男?,管理員必須升級和改進他們的網(wǎng)絡,但大多數(shù)人還沒有將此舉當做他們的首要任務。
Dekate說:“如果您仔細觀察深度學習算法,會發(fā)現(xiàn)它們的溝通密集度非常之高。嘗試為這樣一個聊天應用程序堆棧構建解決方案對于組織如何著手開始將是非常困難的。”
隨著數(shù)據(jù)中心網(wǎng)絡架構師為AI準備其基礎架構,他們必須優(yōu)先考慮可擴展性,這將需要高帶寬、低延遲的網(wǎng)絡和像InfiniBand或Omni-Path這樣的創(chuàng)新型架構。
關鍵是為實現(xiàn)自動化而保證所有選項的開放性,Perry說。自動數(shù)據(jù)中心基礎設施管理技術的市場正在快速成熟,這表明自動化在數(shù)據(jù)中心行業(yè)越來越被廣泛地接受。
Perry說:“還有自動化功能已經(jīng)具備應用條件,這將有助于為AI的引入奠定基礎。”
來自計算方面的挑戰(zhàn)
數(shù)據(jù)中心的計算端對AI應用程序的實施面臨著異常嚴峻的挑戰(zhàn)?;贑PU的環(huán)境可以處理絕大多數(shù)機器學習和AI工作負載,從隨機森林回歸(random forest regression)到集群。但當IT深入到深度學習能力之中,這需要遍歷多個大型數(shù)據(jù)集并部署可擴展的神經(jīng)網(wǎng)絡算法,那么基于CPU的生態(tài)系統(tǒng)可能還不夠。為了提供計算能力,IT部門必須集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技術。
“您需要混合或異構架構,其核心處理器由專用加速器填充,為您的應用程序提供更大的計算密度和更高的吞吐量,”Dekate說。
實施GPU還使管理員能夠優(yōu)化數(shù)據(jù)中心基礎架構以實現(xiàn)功率效率。當管理員將基于GPU的生態(tài)系統(tǒng)進行單一節(jié)點特別擴大時,它們對電源的需求將更加迫切。
Google等超大規(guī)模供應商已認識到這一需求;該公司負責AI業(yè)務的機構DeepMind將將其數(shù)據(jù)中心冷卻所需的能源降低了40%。但是,在更廣泛的市場中幾乎所有的企業(yè)數(shù)據(jù)中心都缺乏Google具備的資源,將無法復制這一模式來解決效率問題。
對于具有傳統(tǒng)生態(tài)系統(tǒng)的大多數(shù)企業(yè)來說,實施這些創(chuàng)新技術不僅復雜—同時價格昂貴。例如,搭載了最新Xeon Phi的芯片價格高達6,294美元—它是英特爾迄今為止最昂貴的芯片。而想要整合深度學習能力的IT團隊不僅僅需要一個芯片,他們需要高密度的加速卡。這些高密度計算配置可用于超大規(guī)模環(huán)境,醫(yī)療保健機構、金融服務等。
Dekate說:“我們已經(jīng)看到高密度產(chǎn)品的應用—大約2個CPU配上8個GPU的比例密度。這代表著在此環(huán)境中,某一服務器節(jié)點上某一服務器單元的成本可能高達15萬美元。”
有辦法減輕這些技術的高價格標簽。許多組織使用公有云,在某些情況下,使用IBM Watson,在進行任何深層的內部承諾之前,測試AI應用程序的可靠性。
此外,服務器更新的時間范圍遠遠超出傳統(tǒng)的三年更新時間表,Perry說?,F(xiàn)在,許多組織每五到七年更新服務器。因此,他們的IT預算也得到擴展,可以應用到能夠滿足內部所需的高價基礎設施之上。
Perry說:“我們已經(jīng)看到這在融合基礎架構上的應用,而且超級融合基礎架構也正在應用。沒錯,這都是非常昂貴的門檻,但轉型是非常值得的。”
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。