人工智能的成熟應用正在解決越來越多的工程實踐難題,我國高度重視人工智能領域的產(chǎn)業(yè)發(fā)展,力圖把握先發(fā)優(yōu)勢。將人工智能、大數(shù)據(jù)等技術應用于IT運維領域的智能運維正在迎來重大發(fā)展機遇。根據(jù)Gartner預測,到2023年智能運維在全球企業(yè)中的使用率從2018年的5%增長至30%。
互聯(lián)網(wǎng)行業(yè)智能運維實踐現(xiàn)狀
目前,互聯(lián)網(wǎng)行業(yè)智能運維現(xiàn)狀可概括為傳統(tǒng)行業(yè)運維瓶頸問題凸顯,智能運維發(fā)展穩(wěn)中有進,落地成效初現(xiàn)。
互聯(lián)網(wǎng)行業(yè)運維瓶頸問題凸顯。第一,互聯(lián)網(wǎng)業(yè)務與信息系統(tǒng)可用性高度相關,穩(wěn)定性要求高。2019年8月,日本某互聯(lián)網(wǎng)廠商云服務器出現(xiàn)異常,多款手游、購物平臺無法正常連線,業(yè)務全面中斷,上百萬用戶受到影響。第二,信息系統(tǒng)復雜且規(guī)模龐大,運行維護難度提升。隨著互聯(lián)網(wǎng)業(yè)務的發(fā)展,新舊系統(tǒng)交疊,業(yè)務功能往往涉及多個系統(tǒng)與應用,其背后的系統(tǒng)邏輯與架構復雜程度提升。同時,數(shù)據(jù)量呈爆發(fā)式增長,簡單的手工運維難以支撐。第三,業(yè)務迭代快速頻繁,IT運維管理風險劇增。當前,應用研發(fā)模式已逐步從瀑布式開發(fā)、敏捷開發(fā)向研發(fā)運營一體化(DevOps)轉變,根據(jù)Puppet與DORA在2019年的調查顯示,DevOps精英團隊與低效團隊相比,代碼部署頻率高208倍。頻繁的部署發(fā)布為運維的變更管理、故障管理帶來更多風險與挑戰(zhàn)。可見,傳統(tǒng)的IT運維模式已難以滿足要求,亟須探索新的方式來解決運維問題。
互聯(lián)網(wǎng)行業(yè)智能運維發(fā)展穩(wěn)中有進。為應對不斷增加的運維難題,互聯(lián)網(wǎng)行業(yè)IT運維經(jīng)歷了從手工、腳本化、工具化到自動化、智能化的發(fā)展過程。面對互聯(lián)網(wǎng)行業(yè)業(yè)務規(guī)模擴張、系統(tǒng)復雜、用戶量增多以及業(yè)務形態(tài)變遷等問題,手工運維、腳本化運維等方式受到了極大挑戰(zhàn),運維難度大大提升。在自動化運維階段,大量的重復性運維工作轉為自動化操作,有效解決了部分人力成本和效率問題。與此同時,隨著微服務、容器化等新技術的應用深入,產(chǎn)品迭代快速、頻繁,企業(yè)開始DevOps實踐,通過將軟件全生命周期的工具全鏈路打通,結合自動化、跨團隊的線上協(xié)作能力,使版本發(fā)布周期大幅縮短,效能獲得提升。然而,在故障處理、變更管理、容量管理等過程中,仍需要人員按經(jīng)驗判斷進行處理、決策,這阻礙了運維質量與效率的進一步提升。智能運維應運而生并成為必然趨勢,通過對智能運維的探索應用,可以有效降低運維難度與成本,使傳統(tǒng)運維人員專注自身的業(yè)務邏輯,提高開發(fā)和迭代效率,并且充分利用人工智能領域的技術成果,使機器能夠代替人作出決策。
互聯(lián)網(wǎng)行業(yè)智能運維落地成效初現(xiàn)。國際上,眾多知名互聯(lián)網(wǎng)企業(yè)正結合自身業(yè)務場景進行智能運維的成熟實踐。例如,從2011年至2017年,知名視頻網(wǎng)站Netflix與卡內基梅隆大學合作,通過人工智能的方法解決網(wǎng)絡視頻運維的各領域難題,包括視頻體驗問題智能分析、視頻傳輸智能優(yōu)化、資源預測與智能調度、視頻用戶體驗改善等;2018年,微軟在云服務平臺Azure中集成智能運維組件,實現(xiàn)對硬件故障的預測、智能發(fā)布與部署等;2020年,IBM強勢發(fā)布Watson AIOPs,實現(xiàn)對IT異常事件的主動檢測、診斷和自動修復等。國內方面,從2018年開始,我國智能運維快速發(fā)展落地,目前眾多大型互聯(lián)網(wǎng)企業(yè)已具備面向多場景的智能運維綜合解決方案,如百度Noah、阿里智能運維平臺、騰訊藍鯨智云、華為eService等。Gartner報告顯示,2019年我國智能運維及相關分析軟件市場規(guī)模為24.05億元人民幣,同比增長11.29%,超過全球相關市場規(guī)模年增長率,正處于迅猛發(fā)展之中。
互聯(lián)網(wǎng)行業(yè)智能運維典型應用場景
智能運維主要基于實際運維場景進行實踐落地,專注于解決特定幾類運維問題,典型應用場景可以劃分為針對歷史事件的場景、針對當前事件的場景與針對未來事件的場景三大類。
第一,歷史事件追蹤。歷史事件追蹤場景主要指通過對歷史數(shù)據(jù)、日志、事件的分析挖掘,智能識別歷史趨勢、異常事件、調用鏈等關聯(lián)關系,從而進一步輸出形成診斷規(guī)則庫、故障傳播圖與知識圖譜等。具體的應用場景主要有:瓶頸分析、故障關聯(lián)關系挖掘、模塊間調用鏈分析等。在離線狀態(tài)下,針對歷史事件場景的主要作用包括:基于對歷史數(shù)據(jù)、日志的分析,發(fā)現(xiàn)制約系統(tǒng)軟、硬件性能的瓶頸點,并進行優(yōu)化;所形成的運維知識圖譜、故障傳播關系圖,能夠作為根因分析、故障定位的基礎,幫助高效、準確識別故障。目前,運維知識圖譜等場景的實踐能夠有效提升運維工作的效率與質量。例如,騰訊互娛能夠通過對運維知識圖譜的構建與應用,滿足游戲中用戶復雜查詢和智能問答等多場景需求,提高故障定位的準確率。
第二,當前事件監(jiān)測。當前事件監(jiān)測場景主要體現(xiàn)在對故障與異常事件的及時、有效處理,通過機器學習、AI算法等智能化方式支撐業(yè)務的穩(wěn)定運行。具體的應用場景主要包括:故障巡檢、異常檢測、根因分析、多維度分析、故障止損等,覆蓋了問題發(fā)現(xiàn)、定位、分析與解決的完整流程。
針對當前事件的主要作用:在發(fā)現(xiàn)階段,互聯(lián)網(wǎng)行業(yè)通過對海量數(shù)據(jù)的統(tǒng)一監(jiān)控與智能化異常檢測,實現(xiàn)運維問題的及時發(fā)現(xiàn)與快速響應;在定位階段,為避免在短時間內涌現(xiàn)大量告警,將根本問題淹沒的情況,通過對告警數(shù)據(jù)進行合并收斂及根因分析,能夠快速準確定位故障根源,精準施策;在分析階段,通過對事件的智能化多維分析與關聯(lián)分析,實現(xiàn)運維系統(tǒng)的智能決策,輸出自動化解決方案;在解決階段,通過成熟的智能決策配合自學習的運維工作流程和自動化等能力,實現(xiàn)故障止損、自愈,對運維問題進行處置解決。
目前,針對當前事件的智能運維場景已在互聯(lián)網(wǎng)行業(yè)實踐落地并取得一定成果。例如,百度在告警系統(tǒng)中實現(xiàn)智能異常檢測與告警收斂的功能,已達到異常檢測準確率90%、召回率99%,告警時效性為2秒,告警信息量削減85%。此外,美團針對故障診斷提供智能化運維能力,對故障進行完整的標記、運營、管理和跟蹤等工作,即時物流業(yè)務IT運維的故障識別定位時間從15分鐘降至5秒鐘,線上故障監(jiān)控覆蓋率從80%提升至96%。
第三,事件預測。事件預測類場景主要通過對歷史事件與當前事件的分析挖掘,訓練數(shù)據(jù)模型,進而對即將發(fā)生的事件進行預測,實現(xiàn)運維問題解決的主動性、前瞻性,規(guī)避可能產(chǎn)生的風險,創(chuàng)造更多的業(yè)務價值。具體應用場景主要包括:容量預測、故障預測等。
針對預測事件類場景主要有以下作用:預測容量情況,通過對資源重要監(jiān)控指標項的分析、預測,及時了解指標走勢,提前建立準確的容量評估模型,實現(xiàn)容量管理的提前、合理規(guī)劃;預測軟硬件故障情況,提前處置,包括隔離上下層故障、維修/更新機器設備等。
在故障預測方面,阿里巴巴智能數(shù)據(jù)中心已能夠提前30天根據(jù)機器設備屬性的突變模式進行判斷,主動維修或更新可能發(fā)生故障的機器,避免產(chǎn)生問題后的被動應對。目前,在誤報率僅有0.08%的情況下,故障召回率相比業(yè)界平均水平提升25%以上。
互聯(lián)網(wǎng)行業(yè)智能運維發(fā)展趨勢及思考
產(chǎn)業(yè)融合助力智能運維實踐向全行業(yè)推進。我國高度關注人工智能等新型信息技術與各產(chǎn)業(yè)的深度融合與發(fā)展。2019年發(fā)布的《工業(yè)和信息化部關于加快培育共享制造新模式新業(yè)態(tài)促進制造業(yè)高質量發(fā)展的指導意見》中指出,支持平臺企業(yè)積極應用人工智能等技術,不斷提升共享制造全流程的智能化水平。由于互聯(lián)網(wǎng)行業(yè)業(yè)務種類多樣,且與傳統(tǒng)行業(yè)有著密切的關系,例如,電子商務對應零售行業(yè)、互聯(lián)網(wǎng)金融對應金融行業(yè)、在線教育對應教育行業(yè)等,因此能夠總結智能運維的最佳實踐與通用場景,以產(chǎn)品或服務的形式與其他行業(yè)共享技術,帶動全行業(yè)智能運維水平的共同提升。
新基建與智能運維發(fā)展協(xié)同發(fā)力。當前,我國大力發(fā)展新型基礎設施建設。在《合肥市推進新型基礎設施建設實施方案(2020-2022年)》中提到,應以融合基礎設施培育新興業(yè)態(tài),賦能傳統(tǒng)產(chǎn)業(yè)轉型升級,發(fā)揮5G、人工智能等賦能效應,積極推廣遠程運維服務等智能制造新模式。一方面,5G技術助力數(shù)據(jù)的實時、海量接入,為智能運維的統(tǒng)一監(jiān)控、機器學習算法等實現(xiàn)提供有力支撐。另一方面,隨著新基建的發(fā)展,IT運維團隊正在面臨更為新型的網(wǎng)絡環(huán)境與高擴展性的部署環(huán)境,如:云計算、容器、Serverless平臺等,智能運維的成熟應用可以有效保障各類基礎設施的穩(wěn)定運行,為數(shù)字經(jīng)濟轉型打下堅實基礎。
智能運維生態(tài)布局逐漸完善。未來,我國將進一步推進智能運維領域的“政產(chǎn)學研用”結合,形成健全、多元的生態(tài)格局,打造智能運維實踐創(chuàng)新引擎。以下是三點建議:第一,加大政策與標準規(guī)范支持力度。目前,我國已針對人工智能領域出臺較多政策與規(guī)范,如《新一代人工智能發(fā)展規(guī)劃》《加快培育共享制造新模式新業(yè)態(tài)促進制造業(yè)高質量發(fā)展的指導意見》等中均對人工智能應用提出明確要求。后續(xù)還應在IT運維、智能運維領域發(fā)布相關指南與標準規(guī)范,全方位針對運維服務發(fā)展進行要求、指導。第二,建立企業(yè)交流平臺,合作共贏。由于智能運維發(fā)展時間較短,相關的社區(qū)組織數(shù)量較少,企業(yè)間的交流十分有限,缺乏溝通的平臺與機制,因此,全行業(yè)應積極搭建交流合作平臺,共享智能運維最佳實踐,激發(fā)行業(yè)創(chuàng)新思維。第三,加強學科體系建設及人才培養(yǎng)。目前,清華大學、南京大學等高校已成立專門的實驗室、團隊,研究與智能運維相關的機器學習算法和工具,但仍只是少數(shù),各高校、學術機構需加大對智能運維理論研究及人才培養(yǎng)的力度,不斷向產(chǎn)業(yè)側輸出科研成果及高端人才,從而使智能運維實踐創(chuàng)新升級。
從目前來看,我國智能運維實踐仍具有較大發(fā)展空間,它需要多種技術與文化思想的共同發(fā)展與進步,不能一蹴而就。深入探索智能運維實踐的最終目的不是取代運維人員,而是幫助運維人員提高運維工作質量、提升效率,解放雙手實現(xiàn)突破與創(chuàng)新。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。