論壇文章
【資安與工具專欄】dynaTrace APM執行力大爆發 台北榮總問題蒐集從1個月→1天
前往目錄

一分鐘看問題

關聯產品

單位任務

資訊室必須負責醫院所有 E 化作業及資 訊系統正常維運不中斷。


主要監控系統

院內所有 Web 化應用系統,包含其中 幾個核心系統,如:醫師作業系統、藥 事服務系統、護理資訊系統⋯⋯等數十 套重要系統。


導入效益

  • 利用 PurePath 重現問題,有利於事 後追蹤還原使用者行為,面對醫院內 的系統效能異常,能夠快速收集相關 資訊,協助釐清問題點為何。
  • APM 跨平台串接,可以監控所有系 統的交易資訊,猶如打開 AP Server 的黑盒子,成為改善效能的依據,建 立良性溝通平台。
  • 大幅縮短效能調校蒐集資料的時間, 從 1 個月到 1 天。

現行醫療衛生體制中,臺北榮總、台中榮總、高雄榮總、台大醫院、三軍總醫院、成大醫院等院同列為最高等級的「醫學中心」。

臺北榮總成立於民國47年,下轄蘇澳、員山、桃園、新竹、玉里、鳳林、台東等7家榮民醫院分院。目前北榮約有6千位員工,其中包含1千多位醫師、近3千位護理人員及其他醫事、技術、行政、技工工友等2千餘名。而資訊室必須負責院內所有E化作業及資訊系統正常維運不中斷,確保醫院能夠提供完善的醫療服務及品質。

臺北榮總資訊室管理師潘雙安先生親切的招呼叡揚採訪團隊,同時潘管理師也提到,只要任何資訊系統發生異常,資訊室就必須以迅速解決為前提完成作業,因此北榮的資訊室是需要24小時7天不休息的輪班,以確保所有資訊系統能夠正常運作。

APM導入前 異常的AP Server猶如黑盒子

問到潘管理師導入APM前,資訊室遇到系統效能表現不彰或異常時,標準的作業程序為何?潘管理師回覆:「根據過去的經驗,若產生系統異常的狀況,以往我們的做法比較傳統費力,須逐一查看Syslog、Ap log、DB log,搭配DB工具比對整理出可能的原因,但以人工檢查log的作法會花費比較多的時間,尤其當AP Server發生異常時,要除錯就滿辛苦的,因為沒有搭配專門的工具,無法準確知道導致AP異常的原因,只會知道現在AP發生問題,但不知道發生甚麼問題,就像黑盒子一樣,情況嚴重時只能重開機解決,但重新啟動的方式無法從根本解決異常問題,很難防範相同問題不會再次發生,這樣的狀況比較棘手。」

PurePath重現問題利於事後追蹤還原使用者行為

dynaTrace的PurePath功能可以100%精確的掌握所有資訊,大幅提升解決問題的時間與效率,快速地定位出問題發生的根源。dynaTrace主動蒐集跨平台交易的完整資訊,且能串接出整筆交易的完整途徑,對於北榮AP效能監控有正向的幫助。

目前北榮資訊室將dynaTrace與其他工具搭配使用,先確認哪個系統耗費大量的CPU資源,再以dynaTrace查詢關鍵字,即可立刻追蹤到該筆交易End to End的狀況,快速重現問題。

潘管理師舉例,最近一次藥事服務系統早上就出現系統異常緩慢的狀況,影響領藥作業的速度,面對突發的緊急狀況,資訊室希望採取「重啟」藥事服務系統的應對措施,但藥事服務系統的臨時停機,會影響醫療服務的正常運作,因此業務單位(藥師)要求搶救系統時必須保持藥事服務系統正常作業。所幸資訊室同仁透過dynaTrace查看系統交易細節後,很快地還原使用者行為將問題重現,發現因個別使用者的操作行為造成系統異常,資訊室知道異常的確切原因後,能夠迅速且有地排除狀況,讓系統恢復正常。

跨平台串接監控所有交易資訊 建立良性溝通平台

對照北榮資訊室導入APM前後的差異,潘管理師直言,因為不知道具體導致AP Server異常的真正原因,所以先前北榮在系統效能調校的部分比較著重在資料庫SQL 語法的調整,但導入dynaTrace之後,就像打開了黑盒子一樣,APM可以自動蒐集每個交易行為的詳細資訊(例如:Client IP、使用者帳號、使用者代號、交易發生的時間、回應時間、及系統名稱⋯⋯等),而這些交易的資料,就成為AP team改善系統效能的依據,藉著dynaTrace建立起良性溝通平台,能夠全面性的針對系統效能瓶頸改善,不再只能嘗試調整SQL語法。

效能調校資料蒐集 從1個月到1天

以前在系統效能調校的部分,針對已經上線的系統,若有沒有相關工具的協助,蒐集全面交易資訊最久需歷時1個月,當交易資料完整後再交由AP team進行系統除錯、修改等工作,一個效能調校的工作排程可能需要1個月以上的時間,反觀目前透過dynaTraceAPM,因能夠100%全面收集交易紀錄,且不會消耗太多CPU效能,一旦發現有效能問題,可立刻由dynaTrace找到與該交易相關的執行紀錄及軌跡,大幅縮短蒐集資料的時間到1天,提升系統效能調校的效率與時間。

 

愛用 dynaTrace 的工程師現身說-資訊室的工程師 A 告訴採訪團隊, dynaTrace APM 可以全面性主動監控 AP Server 上的系統,紀錄所有的交易資料,本來擔心 dynaTrace 可以收集這麼細的資料,且每筆交易都收,會不會對CPU 造成很大的 Loading,但事實上 dynaTrace 不會影響 AP Server,反而當主機 CPU High 或 Memory High 的時候,可以從 APM 得知確切發生什麼問題,將問題 100% 定位, 工程師也不需要再逐一比對各種交易log, 現在部門內對 dynaTrace APM 的依賴也越來越高了呢。

叡揚服務團隊的專業與服務

專業服務1 

事前POC 打動使用者 有助AP 效能提升

潘管理師回憶說:「叡揚資訊成立了二十多年,服務品質有一定的水準,而且作業程序等一切都有按照規矩來!」主要是在系統導入前,叡揚系統管理團隊就針對實際情境模擬狀況,以實際行動的方式「驗證」dynaTrace APM確實能夠符合北榮的需求,同時事前的POC也讓北榮資訊室能全盤了解無論是系統效能調校的時間與過程,APM都有實質上的幫助。

專業服務2

完整的教育訓練 不斷幫助使用者熟悉

剛開始資訊室的同仁對於新工具總是不熟悉,但透過叡揚團隊完整的教育訓練,使用者也能夠漸漸熟悉上手,潘管理師開玩笑地說:「dynaTrace最大的缺點就是太好用,讓我們越來越倚賴它了。」

目前臺北榮總除了希望繼續增加dynaTrace的監控範疇外,也有計畫跟叡揚服務團隊一起研究,如何把監控的機制拓展到醫師的電腦上(Client端監控),讓資訊室能更精準掌握醫師行為及效能問題。未來叡揚也計畫擴編APM的AP顧問服務,希望能夠給予使用者更專業、精準的建議,提供業務上更實質上的幫助。

 

進一步了解應用系統效能管理工具Dynatrace 解決方案