Register的記者Simon Sharwood前兩天說(shuō)澳大利亞稅務(wù)局(ATO)關(guān)于HPE 3PAR存儲(chǔ)的兩次宕機(jī)事件分析報(bào)告出來(lái)了。這估計(jì)是該記者最后一次報(bào)道這事了吧。
原來(lái)他前前后后寫(xiě)過(guò)好幾篇文章追蹤報(bào)導(dǎo),說(shuō)一直要追蹤到調(diào)查報(bào)告出爐。
關(guān)于這事,HPE發(fā)言人也給記者發(fā)了一個(gè)官方的解釋?zhuān)?/p>
現(xiàn)在,這個(gè)調(diào)查報(bào)告終于出來(lái)了,發(fā)表在ATO的官網(wǎng)上,鏈接如下:
https://www.ato.gov.au/uploadedFiles/Content/CR/downloads/js39322_ATO-systems-report_w.pdf
大家也可以點(diǎn)擊文后的<閱讀原文>鏈接直接打開(kāi)。
這份報(bào)告一共22頁(yè),還是有一些詳細(xì)的信息。
比如,大家仔細(xì)看備注,發(fā)現(xiàn)HPE 3PAR的設(shè)備型號(hào)居然是高端全閃存陣列3PAR 20850,HPE推薦用這個(gè)當(dāng)時(shí)(2015年)這個(gè)最新的型號(hào)來(lái)替換EMC的存儲(chǔ)。兩次出事的居然是高端存儲(chǔ),而且還是全閃。
但出事的原因,好像交代得不太清楚,最少說(shuō)了下面幾點(diǎn)吧:
1、SAN光纖問(wèn)題。應(yīng)該是3par 20850后面的磁盤(pán)框的SAS光纜有問(wèn)題。第一和第二次都是由于光纖的問(wèn)題觸發(fā)的故障。至于為什么光纖會(huì)造成故障,報(bào)告也沒(méi)有講得太清楚。
2、硬盤(pán)的固件問(wèn)題??上?bào)告沒(méi)有點(diǎn)名是那個(gè)廠(chǎng)商的硬盤(pán)。由于3par 20850是AFA,因此肯定是SSD盤(pán)。我知道三星應(yīng)該是3par的SSD供貨商之一,不知道這個(gè)是否是三星的SSD。固件的bug造成3par陣列不能復(fù)位SSD,這個(gè)原因里面提了。
當(dāng)然,里面還提到了監(jiān)控沒(méi)有搞配好,導(dǎo)致故障前的警告沒(méi)有第一時(shí)間自動(dòng)回傳給HPE。另外,這是一個(gè)turn key的項(xiàng)目,外包給了HPE,用戶(hù)自己關(guān)注不夠,而且可靠性設(shè)計(jì)不夠好,更關(guān)注性能和成本了。比如備份的配置也放在同一個(gè)陣列,造成陣列故障的時(shí)候,備份也不能用。
(怎么感覺(jué)有點(diǎn)想西安地鐵壞電纜的事件似的,看來(lái)HPE有低價(jià)中標(biāo)的嫌疑)
但是,我看其一共用了兩臺(tái)3par的陣列,一個(gè)在悉尼數(shù)據(jù)中心,一個(gè)在悉尼西數(shù)據(jù)中心,采用異步復(fù)制的技術(shù)。雖然不能自動(dòng)切換,但是一個(gè)數(shù)據(jù)中心故障后應(yīng)該可以手工切換到另外一個(gè)中心才對(duì)啊?報(bào)告說(shuō)沒(méi)有進(jìn)行過(guò)切換的演練,但是好像也沒(méi)有做切換嘗試,可能怕數(shù)據(jù)不完全一致吧?因?yàn)楫吘故钱惒綇?fù)制(估計(jì)距離太遠(yuǎn))。
文章最后說(shuō),要繼續(xù)加強(qiáng)可靠性設(shè)計(jì)。今年年底要改成下圖4陣列的形態(tài)。
看來(lái)客戶(hù)還是覺(jué)得HP XP7(OEM自HDS)要更可靠性些,因此,打算上兩套XP7做生產(chǎn)存儲(chǔ),分布放在兩個(gè)數(shù)據(jù)中心,做異步復(fù)制。原來(lái)的3par存儲(chǔ)作為開(kāi)發(fā)測(cè)試環(huán)境使用,也做異步復(fù)制。但同一個(gè)數(shù)據(jù)中心內(nèi),XP7和3PAR做同步復(fù)制。
大家可能奇怪,XP7和3par是不同的平臺(tái),怎么能做同步復(fù)制?剛開(kāi)始我也沒(méi)有想明白,后來(lái)我像通了,應(yīng)該是利好了HP XP7的異構(gòu)虛擬化功能,把3par接管過(guò)去,采用卷鏡像的方式來(lái)實(shí)現(xiàn)異構(gòu)的同步復(fù)制。
另外,ATO已經(jīng)把WEB服務(wù)器遷移到公有云上了,因?yàn)樗麄冇X(jué)得公有云更安全一些。以后估計(jì)更多的應(yīng)用會(huì)遷移到公有云。
據(jù)說(shuō)現(xiàn)在3par的存儲(chǔ)已經(jīng)全部更換了,老的存儲(chǔ)HPE 3PAR要拿回去再分析。也許有新的故障診斷發(fā)現(xiàn)也不一定。但我估計(jì)ATO的事件真相可能永遠(yuǎn)都不會(huì)大白于天下,但也無(wú)所謂,這份22頁(yè)的報(bào)告還是看出ATO的一些改進(jìn)的措施,其他用戶(hù)如果關(guān)注關(guān)注存儲(chǔ)的可靠性問(wèn)題,也是可以仔細(xì)閱讀,也許會(huì)有一些啟發(fā)。
其實(shí),上一套陣列雙活加異地復(fù)制的兩地三中心方案就比較理想了,這些故障也許都能避免。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。