云原生系統(tǒng)中,以微服務(wù)構(gòu)建的在線應(yīng)用對(duì)響應(yīng)延遲非常敏感,如何保障在線應(yīng)用服務(wù)質(zhì)量的同時(shí)提高系統(tǒng)資源利用率是云原生系統(tǒng)管理面臨的大挑戰(zhàn),而自動(dòng)策略生成及多層感知網(wǎng)等技術(shù)能在定程度上提升云原生系統(tǒng)的智能化管理水平。
1. 多層級(jí)交互型應(yīng)用的自動(dòng)整合策略生成方法:
針對(duì)多種負(fù)載混合部署到同一共享資源池上導(dǎo)致的競(jìng)爭(zhēng)和干擾問題,深圳先進(jìn)院團(tuán)隊(duì)從用戶感知的尾延遲(tail latency)角度研究了多層交互式工作負(fù)載的整合調(diào)度問題,提出了一種新型的基于輪廓分析(profiling)的整合方法,可以滿足尾延遲的要求,同時(shí)減少使用的物理機(jī)數(shù)量。為了實(shí)現(xiàn)這一目標(biāo),首先在私有KVM虛擬化集群中對(duì)不同配置下的整合性能進(jìn)行測(cè)試,以建立經(jīng)驗(yàn)性能值,同時(shí)考慮影響多層工作負(fù)載尾延遲的兩個(gè)關(guān)鍵因素:混部負(fù)載的干擾以及負(fù)載層間的交互。該方法將多層工作負(fù)載的整合建模為具有不同目標(biāo)和約束的優(yōu)化問題,并自動(dòng)生成具體的整合策略。實(shí)驗(yàn)表明,與不進(jìn)行輪廓分析的方法相比,該方法能夠把尾延遲降低到原來(lái)的1/6,同時(shí)與不考慮層間交互的方法相比,該方法能夠把尾延遲降低到原來(lái)的43%。
2. 基于多層感知網(wǎng)的資源智能調(diào)整機(jī)制:
混合部署帶來(lái)的性能波動(dòng)歸根結(jié)底是混部應(yīng)用無(wú)序共享底層硬件資源造成的,由于多級(jí)共享資源造成應(yīng)用性能干擾成因復(fù)雜,計(jì)算所團(tuán)隊(duì)嘗試引入多層感知網(wǎng)模型,建立各類資源實(shí)時(shí)使用狀態(tài)、共享應(yīng)用運(yùn)行狀態(tài)、系統(tǒng)整體環(huán)境狀態(tài)等因素與當(dāng)前監(jiān)控在線應(yīng)用性能之間的關(guān)系。當(dāng)應(yīng)用性能發(fā)生波動(dòng)時(shí),可以通過(guò)多層感知網(wǎng)模型追溯造成當(dāng)前性能波動(dòng)的因素,如果是應(yīng)用自身的因素,則認(rèn)為波動(dòng)是正常的,當(dāng)追溯到系統(tǒng)環(huán)境中的其他因素時(shí),則該因素被認(rèn)定為造成性能干擾的關(guān)鍵瓶頸資源,進(jìn)而對(duì)該應(yīng)用在關(guān)鍵瓶頸資源上進(jìn)行隔離保護(hù),保障應(yīng)用的服務(wù)質(zhì)量。實(shí)驗(yàn)結(jié)果表明,隨著共享應(yīng)用的不斷增加,該方法可以使在線應(yīng)用平均延遲和尾延遲均保持穩(wěn)定,比無(wú)序競(jìng)爭(zhēng)場(chǎng)景的尾延遲降低了66.7%~80%,尾延遲性能波動(dòng)從1.53%~130.53%降低到了3.15%~9.51%,同時(shí)能夠維持較高的資源利用率。
可靠性對(duì)于云原生系統(tǒng)來(lái)說(shuō)非常重要。由于大量的在線業(yè)務(wù)運(yùn)行在云原生系統(tǒng)上,如果不及時(shí)處理故障,可能會(huì)造成嚴(yán)重的后果,甚至造成嚴(yán)重的經(jīng)濟(jì)損失。但實(shí)現(xiàn)這一目標(biāo)并不容易,面臨的主要挑戰(zhàn)是:缺乏故障生成及注入工具集,系統(tǒng)規(guī)模龐大且結(jié)構(gòu)復(fù)雜導(dǎo)致問題定位困難,已有監(jiān)控工具對(duì)故障的可視化展示的程度弱等。
容器故障注入工具:
為了方便對(duì)云原生容器平臺(tái)進(jìn)行可靠性測(cè)試,深圳先進(jìn)院團(tuán)隊(duì)提出了一個(gè)面向容器的故障注入框架,用于觀察故障注入到容器后的性能表征。首先,我們基于容器平臺(tái)開發(fā)了一個(gè)故障注入工具和四個(gè)典型的攻擊程序,故障程序包括CPU攻擊、內(nèi)存攻擊、磁盤攻擊和網(wǎng)絡(luò)攻擊。故障注入的目的是模擬容器的異常行為。我們分析了多個(gè)容器之間的故障行為,主要針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRN)和動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò)(DRNN)等四種主流人工智能應(yīng)用。實(shí)驗(yàn)結(jié)果表明,深圳先進(jìn)院團(tuán)隊(duì)所提出的容器故障注入工具能有效地控制故障類型的選擇、注入的位置、策略及持續(xù)時(shí)間,從而為故障行為分析和檢測(cè)算法研究提供工具支持。
基于圖推理的容器異常檢測(cè)與定位算法:
數(shù)據(jù)中心的容器數(shù)量眾多,同時(shí)上層應(yīng)用結(jié)構(gòu)復(fù)雜且相互依賴,使得對(duì)容器云的異常檢測(cè)和定位非常困難。傳統(tǒng)的檢測(cè)模型通常采用CPU和內(nèi)存使用率等系統(tǒng)資源指標(biāo),但很少考慮組件之間的關(guān)系,導(dǎo)致誤報(bào)率較高。深圳先進(jìn)院團(tuán)隊(duì)提出了一種新的基于圖相似度的容器化云環(huán)境異常檢測(cè)和根源定位方法ADGS:首先監(jiān)控應(yīng)用程序中每個(gè)組件的響應(yīng)時(shí)間和資源使用情況,以確定系統(tǒng)狀態(tài)是否正常;在此基礎(chǔ)上,提出了一種基于圖相似度的異常根源定位機(jī)制,并研究了異常在組件中的傳播規(guī)律?;贒ocker實(shí)際容器的實(shí)驗(yàn)評(píng)估表明,該方法能有效、準(zhǔn)確地檢測(cè)和確定異常的根本原因。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。