據(jù)外媒報道,近日IBM和NVIDIA聯(lián)手推出了新服務(wù)器IBMPower Systems S822LC for High Performance Computing(還有兩款產(chǎn)品分別為IBMPower Systems S821LC和IBM Power Systems S822LC for Big Data),從這一串名字可看出,這并不是一款普通的服務(wù)器,它是專門為人工智能、機器學(xué)習(xí)和高級分析應(yīng)用場景而推出的。
IBM官方宣稱,這款服務(wù)器數(shù)數(shù)據(jù)處理速度比其它平臺快5倍,和英特爾x86服務(wù)器相比,每美元的平均性能高出80%。
這款服務(wù)器比英特爾x86強在哪?
據(jù)了解,該款服務(wù)器使用了兩個IBM Power8 CPU和4個NVIDIATesla P100 GPU。Power8是目前IBM最強的CPU,從之前媒體的評測數(shù)據(jù)來看,其性能是要優(yōu)于英特爾E7 v3的,而Tesla P100是NVIDIA今年才發(fā)布的高性能計算(HPC)顯卡,這樣的配置組合在處理性能上自然不弱。
原因有兩個:
其一,相比CISC指令集,采用的RISC指令集的Power處理器可同時執(zhí)行多條指令,可將一條指令分割成多個進程或線程,交由多個處理器同時執(zhí)行,因此并行處理性能要優(yōu)于基于CISC架構(gòu)的英特爾x86芯片。
另外,這款服務(wù)器的巧妙之處還在于Power8和Tesla P100之間的“配合”。
Power架構(gòu)的另一大特點就是具有充分發(fā)揮GPU性能的優(yōu)勢。
實際上,Tesla P100有兩個版本,一個是NVIDIA今年4月推出的NVLink版,另一個是6月發(fā)布的PCI-E版本,簡單來講,前者是后者的加強版,與IBM Power8配對的正是Tesla P100 NVLink版。
Tesla P100采用的是Pascal架構(gòu),能夠?qū)崿F(xiàn)CPU與GPU之間的頁面遷移,不過每塊NVLink版還配置了4個每秒40 GB NVIDIA NVLink端口,分部接入GPU集群。NVLink是OpenPOWER Foundation獨有的高速互連技術(shù),其有效帶寬高達40GB/S,堪稱PCIE的升級版,足以滿足多芯片并行計算的需求。不過支持這一標準的CPU屈指可數(shù),Power8則是其中之一(英特爾不在此之列)。
這就意味著,Power8 CPU能夠和Tesla P100 GPU以更高的速度完成通信,這一特性可讓IBM Power Systems S822LC for High Performance Computing中的CPU和GPU之間的連接速度遠快于普通的在PCIe總線上交換數(shù)據(jù)的表現(xiàn)。
IBM表示,“這一功能意味著,不同于在GPU處于PCI-E界面上的x86系統(tǒng)上,數(shù)據(jù)庫應(yīng)用程序、高性能分析應(yīng)用程序和高性能計算應(yīng)用程序運行能夠在要大得多的數(shù)據(jù)集上運行。”
另外,Tesla P100的半精度浮點運算性能達到了每秒21萬億次 —— 比插入現(xiàn)代PCI-E插槽的GPU高出大約14%,這樣的處理能力對訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的重要性不言而喻。
本文引用地址:http://www.eepw.com.cn/article/201609/296831.htm
IBM還做了個縱向?qū)Ρ龋屠峡頟ower S822LC服務(wù)器的Tesla K80 GPU加速器相比,新款服務(wù)器的加速能力提升了兩倍多。
預(yù)計明年問世的IBMPower9會延續(xù)對CPU+GPU組優(yōu)化。
為何是“CPU+GPU”?
眾所周知,在人工智能人工智能和深度學(xué)習(xí)等計算任務(wù)上,CPU早已不堪重任。因此,不少企業(yè)紛紛推出人工智能專用芯片概念,例如谷歌的TPU(Tensor Processing Unit);還有業(yè)內(nèi)人士力挺FPGA更適合深度學(xué)習(xí)的算法,這也是英特爾以高價收購Altera的主要原因。
不過,上述兩個替代CPU的方案都還未成熟,目前大多數(shù)企業(yè)采用的依然是“CPU+GPU”的組合,或者稱為異構(gòu)服務(wù)器。通常來說,在這種異構(gòu)模式下,應(yīng)用程序的串行部分在CPU上運行,而GPU作為協(xié)處理器,主要負責計算任務(wù)繁重的部分。
因為和CPU相比,GPU的優(yōu)勢非常明顯:
1.CPU主要為串行指令而優(yōu)化,而GPU則是為大規(guī)模的并行運算而優(yōu)化。所以,后者在大規(guī)模并行運算的速度更快;
2.同等面積下,GPU上擁有更多的運算單元(整數(shù)、浮點的乘加單元,特殊運算單元等等);
3.一般情況下,GPU擁有更大帶寬的 Memory,因此在大吞吐量的應(yīng)用中也會有很好的性能。
4.GPU對能源的需求遠遠低于CPU。
當然,這并不代表人工智能服務(wù)器對CPU沒有需求,CPU依然是計算任務(wù)不可或缺的一部分,在深度學(xué)習(xí)算法處理任務(wù)中還需要高性能的CPU來執(zhí)行指令并且和GPU進行數(shù)據(jù)傳輸,同時發(fā)揮CPU的通用性和GPU的復(fù)雜任務(wù)處理能力,才能達到最好的效果,通俗點說就是實現(xiàn)CPU和GPU的協(xié)同計算。
雖然NVIDIA和Intel等芯片商正在為GPU和CPU孰強孰弱陷入了口水戰(zhàn),但實際上這些企業(yè)已經(jīng)開始在異構(gòu)計算上加大了研發(fā)力度,至少在近期內(nèi),CPU和GPU的結(jié)合將繼續(xù)成為人工智能領(lǐng)域最有效的方案。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。