資訊中心管理
AIOps 創造新商機?先打開您的系統監控工具
AIOps 是近兩年很夯的議題!當系統維運人員使用太多種監控工具,即使手上有龐大的監控數據,卻依然定位不出問題而感到火燒屁股時,人工智慧便是資訊人員的救世主。

AIOps 是近兩年很夯的議題!當系統維運人員使用太多種監控工具,即使手上有龐大的監控數據,卻依然定位不出問題而感到火燒屁股時,人工智慧便是資訊人員的救世主。

美國資訊科技研究和顧問公司 Gartner 在 2019 年研究中提到:「IT 的監控領域大致上分為 Infrastructure、Application、Network Performance 與 Digital Experience,而所謂 AI 的 IT Operations,就是透過人工智慧將 Infrastructure、Application、Network Performance 與 Digital Experience 的監控資訊彙整在一起,分析運算後提供 root cause 結果。」工程師們光想到監控領域有這麼多種就覺得麻煩,似乎把監控的議題越放越大。更不用說每個領域的 domain knowhow,企業要如何找到這種大師等級的專業資訊人員來解決效能問題,一直是個重要且複雜的難題,更何況這個大師必須要有多執行緒的功能。

image001
資料來源: 2019 Strategic Roadmap for IT Operations Monitoring Published: 20 June 2019

好在資訊科技演變快速,這樣多執行緒、經驗豐富的大師等級資訊人員已不再稀有,讓 AI 成為工作上的好幫手,透過 AI 能夠完整、精準又快速的定位效能瓶頸。這就是為什麼近幾年 AIOps 如此熱門原因。

Gartner 針對企業若想評估 AIOps 的工具協助工作效率提出研究指出,資訊人員最在意功能分別為:

  1. 減少/統整告警
    無意義的事件告警一直是監控麻煩的議題,為了達成系統的效能監控,監控工具肯定會在監控時,設定相關警戒值,例:CPU loading 超過 80%會寄發 email 通知、交易回應時間超過 10sec 即發告警訊息、系統 failure rate 超過 10%時發告警等。但是 CPU 每天上上下下震盪亦屬正常、一百萬筆交易若只有一筆交易超過 10sec 對整體來說也無傷大雅。所以 IT 人員雖有在監控,卻常有種放羊的孩子感覺,告警信早已收到麻痺,使系統真的異常時往往後知後覺無法第一時間處理。
  2. 預測/提前告警 Magic Quadrant
    能提前預測未來系統是不是會 crash 一直是資訊人員夢幻的願景。拜 AI 所賜,此功能不再遙不可及。AI 之所以能預測或提前知道系統後續狀況,其實仰賴著背後龐大數據的學習與演算,就像一位經驗豐富的老師傅看著菜鳥的一舉一動,就可以知道是否等等會出包,還是能順利通過。

因應這樣的 AIOps 工具需求,Gartner 也分別 在不同領域做了評比,在 APM 領域的魔力象限中,Dynatrace 因上述 AIOps 議題、All in one 的設計等,已連續 9 年被評比為 Leader 象限中的第一名。

Dynatrace OneAgent 技術可協助企業 IT 人員不需再花費時間設定、部署監控環境,而是能夠更放心地讓 Dynatrace 協助把關監控。OneAgent 僅需要在 O.S. 層透過簡單點選三至五個下一步,即安裝完成,後續 OneAgent 會將系統上的 processes、services、application 等全自動監控部屬並做橫向與縱向的關聯:

透過全自動的關聯與內建 AI 分析,Dynatrace 能將複雜的 Infrastructure、application、 processes、network performance 等效能數據顯示關聯性,讓系統維運人員不會接到客訴電話後,還在大海撈針尋找異常發生原因。

 全自動發現、關聯

Dynatrace 內建的 AI 能夠分析並計算成千上萬個事件後,提供最終的 root cause 根因分析。涵蓋幾種演算法的 ML、自動關聯、自動 baseline 之外,更以多維度的效能數據做綜合分析(Errors、Response Time、Exceptions、Logs、Events、Topology 等)。Root cause 要能夠計算準確,數據的收集是很重要的基礎,而 Dynatrace 監控提供 AI 一個很完美的舞台,完整且多維度考量,讓 root cause 分析精準,減少系統維運人員 troubleshooting 時間。

Root Cause Analyze

叡揚資訊經銷系統效能監控工具已超過 20 年,累積各行各業的監控需求經驗,包含金融、保險、醫療、政府、製造和零售等領域,我們整理出監控的三大機制,協助企業不只在系統維運時能用到好工具,更能將工具發揮得淋漓盡致:

  1. 主動監控機制:
    透過 AI 分析告警資訊,減少大量的垃圾告警信件,維運人員僅需將心力關注在真正需要處理的事件。可搭配不同監控需求,彈性設計儀表板,讓監控更有效率。

    image007
  2. 還原現場機制:
    根據經驗,在問題處理過程中,往往最耗費時間的步驟就是”定位問題”,通常找到問題的根因後,解決就很快。在 Dynatrace AI 發出異常告警後,如何透過簡單的幾個步驟還原系統當下發生的瓶頸點,是所有維運同仁都在意的。Dynatrace 系統監控能力就像監視攝影機一樣完整,記錄事件發生的所有過程並忠實還原,讓程式開發同仁能快快除蟲,重新投入原本的工作。
    還原每一個元件效能
    專利技術:PurePath
    SQL Bind Value
  3. 系統優化機制:
    除了 Dynatrace 內建自動比對交易差異功能外,叡揚資訊協助企業在使用 Dynatrace 時能透過多維度方式分析數據,調整系統資源、調整程式品質,讓每一筆資金、每一筆資源都花在刀口上。更因為 Dynatrace 內建的 AI,可在系統發生異狀時能提前告警,為系統維運同仁爭取系統復原的時間。

變快、變慢 Why?交易量變少 > 潛在問題

叡揚資訊 APM 團隊成功在國內導入許多用戶,不僅客戶持續增加,許多既有用戶也持續增購。除了解決方案好用外,也仰賴叡揚資訊 APM 團隊豐富的導入經驗,讓系統維運同仁能花更少時間導入監控機制,除了讓系統維運相關同仁享受到 Dynatrace AI 帶來的分析、預測等便利性,更不用再煩惱工具應該如何導入效益最高,效能瓶頸應如何快速定位。

 

Gartner 針對 AIOps 未來趨勢做了研究:整合自動化工具、系統優化,將會是接下來幾年的重點。在實現自我修復的願景前,必須要有足夠且完整的數據收集,精準的問題判斷,下一步才能走的正確而穩健!而 Dynatrace 即是促使此願景更快速達成的一大功臣。透過 Dynatrace 的 AI 讓問題精準被判斷後,設計 runbook 腳本搭配自動化工具,可以做到複雜的自我修復境界,簡單的腳本例如:重啟 process、確認啟動程序正確;複雜的腳本則會考量多種情境,而有不同排列組合,好讓系統能在發生問題時,可依不同狀況、複雜度自動回復正常,最終達成無人機房管理。

AIOps演進資料來源: 2019 Strategic Roadmap for IT Operations Monitoring Published: 20 June 2019