傳統(tǒng)的數(shù)據(jù)中心通常采用“一機一業(yè)務(wù)”的部署模式,但是隨著數(shù)據(jù)中心規(guī)模不斷擴大,這種部署模式會帶來管理運營成本過高、業(yè)務(wù)上線緩慢等問題。通過引入虛擬化技術(shù)把數(shù)據(jù)中心物理設(shè)備進行資源池化可以解決上述問題,提高業(yè)務(wù)部署效率、降低業(yè)務(wù)遷移的難度。但是同時也帶來了如何對虛擬化平臺進行監(jiān)控管理的新問題。
傳統(tǒng)的數(shù)據(jù)中心通常采用“一機一業(yè)務(wù)”的部署模式,但是隨著數(shù)據(jù)中心規(guī)模不斷擴大,這種部署模式會帶來管理運營成本過高、業(yè)務(wù)上線緩慢等問題。通過引入虛擬化技術(shù)把數(shù)據(jù)中心物理設(shè)備進行資源池化可以解決上述問題,提高業(yè)務(wù)部署效率、降低業(yè)務(wù)遷移的難度。但是同時也帶來了如何對虛擬化平臺進行監(jiān)控管理的新問題。
虛擬化平臺的監(jiān)控管理能力對維持虛擬資源池可靠運行尤為重要。虛擬化后單臺主機上運行著多臺虛擬機,多個業(yè)務(wù)系統(tǒng),而現(xiàn)有的虛擬化平臺無法對這些業(yè)務(wù)系統(tǒng)的資源占有情況以及運行狀況進行實時監(jiān)控,對物理主機多個虛擬機之間的拓?fù)溥B接情況也是無法直觀的顯示出來。上述的問題都對虛擬化環(huán)境下的監(jiān)控管理提出了新的要求與挑戰(zhàn)。
H3C CAS虛擬化管理平臺(下文簡稱CAS)針對虛擬化平臺的上述問題作了改進。在資源池運行狀況和業(yè)務(wù)系統(tǒng)進行了監(jiān)控,提高了資源池的監(jiān)控粒度,并輸出詳細(xì)告警和報表。下面會對這些改進做詳細(xì)分析。
一、資源池運行情況展示與分析
相比傳統(tǒng)虛擬化平臺關(guān)注單個物理主機或虛擬機監(jiān)控的管理思路,CAS則強調(diào)對整個虛擬化系統(tǒng)統(tǒng)一進行監(jiān)控,全面評估虛擬化系統(tǒng)的健康程度,通過數(shù)字或圖表的方式展現(xiàn)出來。下面的這些監(jiān)控指標(biāo)可以很直觀的展示資源池的整體運行情況,從而提高虛擬化平臺的可用性。
·資源池健康度分析
CAS通過內(nèi)置的系統(tǒng)健康度評價模型,從主機、網(wǎng)絡(luò)、存儲等多個維度,對資源池中物理主機和虛擬機的CPU、內(nèi)存、網(wǎng)絡(luò)、存儲等資源利用率及告警進行綜合分析,得到系統(tǒng)健康度評分。當(dāng)系統(tǒng)健康度得分低于80,就代表系統(tǒng)運行已經(jīng)存在風(fēng)險,需要管理員重點關(guān)注;當(dāng)?shù)梅值陀?0,系統(tǒng)則處于高危環(huán)境,管理員可通過分析資源池中各物理主機的健康情況進行深入定位,及時找出問題。這種全新的虛擬化健康度管理方法覆蓋了虛擬化環(huán)境所有層面,能夠全面保障虛擬化環(huán)境的健康運行。
圖1 資源池監(jiān)控概覽界面
·集中的性能數(shù)據(jù)展現(xiàn)
CAS全面收集各類性能數(shù)據(jù),在單一界面展示虛擬化系統(tǒng)CPU、內(nèi)存、存儲等各類資源容量及其利用率等指標(biāo),通過資源超配比例數(shù)值判斷瓶頸,為后續(xù)資源擴容提供數(shù)據(jù)支撐。同時利用主機監(jiān)控概覽界面展示資源池中物理主機和虛擬機數(shù)目、開關(guān)機狀態(tài);依據(jù)CPU、內(nèi)存等資源利用率對各個虛擬機的運行狀況進行排名,快速發(fā)現(xiàn)資源占用最多的主機、虛擬機,為管理員制定合理的資源池規(guī)劃提供詳盡的數(shù)據(jù)支持。
圖2 虛擬機監(jiān)控概覽界面
·資源池拓?fù)湔故?/p>
CAS還支持虛擬化后資源池的拓?fù)湔故?,分別以計算資源、網(wǎng)絡(luò)資源、存儲資源為中心,展示三種視角下的虛擬化拓?fù)?,多層次的展示出物理主機、存儲、虛擬交換機、虛擬機之間的內(nèi)部邏輯關(guān)系,增加資源在虛擬化環(huán)境下的可視性。同時將各類資源的性能數(shù)據(jù)及告警非常直觀的在拓?fù)渲姓故境鰜恚ㄎ锢碇鳈C、虛擬機的主機信息、運行狀態(tài)、資源使用情況、告警等信息,幫助管理員快速了解資源池拓?fù)浼案婢闆r。
圖3 資源池拓?fù)湔故?/p>
同時,虛擬機由于HA、DRS特性可以在物理主機間靈活遷移,使資源調(diào)度更加靈活,但是這樣也導(dǎo)致虛擬機遷移的不確定性,使虛擬機的管理更加復(fù)雜。原來在某臺主機上的虛擬機遷移的目的地是哪里?什么時候發(fā)生的遷移?遷移的原因是什么?這些疑問都可以在CAS管理平臺界面中查看到。例如虛擬機在物理主機間的位置遷移路徑,顯示每一次遷移事件的所有相關(guān)信息,包含每一次遷移的操作員、操作時間、操作動作、遷移耗時等,這樣便于管理員全面掌握虛擬機遷移信息,加強虛擬機管理。
圖4 虛擬機遷移歷史記錄
二、資源精細(xì)化監(jiān)控
在虛擬化環(huán)境中,會有很多虛擬機共享同一臺物理主機的資源,物理主機故障會影響到該主機上運行的所有虛擬機,所以及時、準(zhǔn)確的監(jiān)控資源使用情況非常重要。CAS能在非常短的時間內(nèi)收集到資源池所有的性能數(shù)據(jù)、并處理、歸檔到后臺數(shù)據(jù)庫。在虛擬機內(nèi)部操作系統(tǒng)內(nèi)安裝CAS Tools監(jiān)控模塊,可以有效地保證這些性能數(shù)據(jù)的準(zhǔn)確性,管理員通過觀察CAS管理界面中的性能圖表來獲取這些性能統(tǒng)計信息,對性能進行實時監(jiān)控。
·物理主機性能監(jiān)控
如圖所示CAS通過儀表盤的形式來展示物理主機的CPU、內(nèi)存、網(wǎng)絡(luò)、存儲等資源的使用情況,并提供詳細(xì)的報表,管理員可利用監(jiān)控數(shù)據(jù)決定物理主機的負(fù)載,來判斷是否讓更多虛擬機整合在這臺物理主機上;同時也能檢測主機的可用性問題并提前預(yù)知風(fēng)險。
圖5 物理主機概要信息
·虛擬機性能監(jiān)控
CAS可以對虛擬機CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤I/O、IOPS、I/O延時和分區(qū)利用率等多項關(guān)鍵指標(biāo)的監(jiān)控,通過持續(xù)監(jiān)控虛擬機負(fù)載,發(fā)現(xiàn)資源利用率較低的虛擬機,可以將此虛機的剩余資源回收到資源池供其他虛擬機使用,最大限度的提高資源利用率;同時利用基于時間軸曲線的圖表預(yù)測資源性能瓶頸,發(fā)現(xiàn)資源不足的虛擬機,及時分配資源來保障虛擬機流暢地運行。
資源使用情況統(tǒng)計
CAS可對資源的使用情況進行細(xì)致的統(tǒng)計,包括主機、虛擬機、網(wǎng)絡(luò)資源(IP地址)等信息。用戶可以根據(jù)自身需求靈活定制報表顯示的內(nèi)容,并可將報表信息導(dǎo)出,幫助工程師了解當(dāng)前資源的使用情況,為業(yè)務(wù)擴容優(yōu)化提供量化數(shù)據(jù)。
圖6 虛擬機報表統(tǒng)計
三、業(yè)務(wù)系統(tǒng)可用性監(jiān)控
傳統(tǒng)虛擬化平臺的監(jiān)控往往只是對資源使用情況的監(jiān)控,沒法監(jiān)控到虛擬機上運行的業(yè)務(wù),而IT管理者更為關(guān)注的是業(yè)務(wù)的運行情況。因此 CAS在滿足資源監(jiān)控的基礎(chǔ)上,增加了業(yè)務(wù)系統(tǒng)的可用性檢測。
利用CAS Tools的業(yè)務(wù)監(jiān)控模塊可實時監(jiān)控業(yè)務(wù)系統(tǒng)進程的狀態(tài),通過Tools中的虛擬串口通道保持與CAS管理平臺的實時通信,判定業(yè)務(wù)的存活狀態(tài)。如果在連續(xù)3個時間周期(1個周期為30秒)內(nèi)探測到被監(jiān)測的服務(wù)狀態(tài)為非運行或非活躍狀態(tài),則自動重啟該服務(wù),如果連續(xù)4個時間周期檢測到應(yīng)用服務(wù)故障,且重啟服務(wù)失敗,則根據(jù)系統(tǒng)管理員配置的業(yè)務(wù)監(jiān)控策略,重新啟動虛擬機或僅上報應(yīng)用故障不可恢復(fù)的告警消息,最小化業(yè)務(wù)宕機時間。目前可監(jiān)控的業(yè)務(wù)類型包括Apache Tomcat、JDK、Apache HTTP Server、MySQL、SQL Server、SharePoint等應(yīng)用,并支持用戶自定義腳本配置業(yè)務(wù)監(jiān)控系統(tǒng)來增加所需要的監(jiān)控項。
四、完善的告警與審計
對于虛擬化環(huán)境的監(jiān)控管理而言,告警是一個最基礎(chǔ)且最關(guān)鍵的需求。告警涉及的范圍包括總體狀況重大告警、集群資源利用率告警、主機資源利用率告警、虛擬機資源利用率告警、網(wǎng)絡(luò)連通性告警、存儲連通性告警等多項內(nèi)容。系統(tǒng)管理員希望各類異常告警的統(tǒng)計信息及其產(chǎn)生的原因與故障恢復(fù)手段都在虛擬化平臺直觀地展示出來,作為決策依據(jù)。
CAS針對集群、物理主機、虛擬機的資源使用情況進行監(jiān)控,支持自定義CPU、內(nèi)存、磁盤利用率的告警閾值。當(dāng)設(shè)置的監(jiān)控指標(biāo)數(shù)值達到設(shè)定閾值時,系統(tǒng)會自動上報告警。平臺根據(jù)設(shè)置閾值數(shù)值的不同,將告警信息劃分為緊急告警、重要告警、次要告警、提示告警。第一時間以短信、郵件等多種方式將異常通知給管理員,以便管理員及時處理,快速解決這些問題,將風(fēng)險與損失降到最低。同時CAS對系統(tǒng)告警及管理員處理進行日志詳細(xì)記錄,方便事后審計追蹤。
總結(jié)
隨著信息化的發(fā)展,虛擬化逐漸成為數(shù)據(jù)中心的標(biāo)配,虛擬化后帶來的監(jiān)控問題成為最為突出的管理需求。H3C CAS虛擬化平臺通過內(nèi)置的健康度評價模型,從軟硬件的各個層面全面評估虛擬化系統(tǒng)的健康程度,對資源池整體容量、運行情況進行直觀展示和分析,輔以計算、網(wǎng)絡(luò)和存儲資源的精細(xì)化的性能狀態(tài)、資源告警、環(huán)境拓?fù)?、業(yè)務(wù)系統(tǒng)狀態(tài)等關(guān)鍵信息的監(jiān)控,從資源和業(yè)務(wù)兩個維度實現(xiàn)虛擬化環(huán)境的監(jiān)控,保證虛擬化平臺的穩(wěn)定運行。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。