論壇文章
【資安工具專欄】把客訴降到最低 遊戲橘子極致監控系統效能

每一天, 有300 萬訪客量; 每一周, 更高 達4,800 萬 Page Views。遊戲橘子旗下的 「beanfun !樂豆」是台灣最大遊戲入口網站。 根據遊戲橘子委託TNS 模範市場研究顧問進行 「2011 大規模玩家調查」,遊戲橘子在整體遊 戲市場的玩家市佔率高達53%,等於每兩個玩 家就有一個正在玩遊戲橘子旗下遊戲,遊戲橘子 在傳統角色扮演、動作RPG、射擊、競速等不 同遊戲類型的玩家市佔率均拿下第一名。

台灣最大遊戲入口網站 遊戲橘子「beanfun !樂豆」管理更重要

遊戲橘子旗下的「beanfun !樂豆」會員數日前 正式突破1,400 萬人,以2011 年來看,全年度 不重複登入人數就達到700 萬,會員儲值點數金 額更突破50 億。而平台背後的管理與系統架構 更是影響全局的秘密關鍵。 根據統計,玩家最重視的不外乎就是1. 連線的 品質以及穩定度 2. 鎖帳號、盜帳號及伺服器品 質 3. 客戶服務品質,而這些的關鍵幾乎都是在 網路系統架構及管理品質,遊戲橘子之所以是全 台最大遊戲業者,除了自身研發能力外,在資 安、伺服器管理更是業界領先指標,把維繫線上 遊戲運作的伺服器視為企業命脈,因此,不斷精 進後台管理及設備,達到以最佳效率管理數目龐 大的伺服器之IT 使命,在先天上Server 數量上 具有競爭優勢同時,更可以藉由監控系統讓維運 品質大幅提升。 一旦有問題 客訴電話接不完 「目前負責支撐官方網站營運的Server 約50 多 台,預計今年底會擴充一倍到100 台。」遊戲橘子網路系統架構部經理黃景星表示,因應如此 之大的流量及玩家,維護系統運作更是小心翼 翼,因為一有問題,往往會有接不完的客訴電 話間接影響公司形象。「之所以會導入Gomez on SaaS、Gomez RUM 及dynaTrace 監控系統, 也是因為亟需一套管理平台系統,藉由圖像化 介面提供一目了然的監控系統,避免發生問題 時,找不到真正的關鍵點,可直接找出有問題 的Server 及重現過去情境,把癥結點找出來!

搭配 Gomez APM Solutions 做調整, 官網平均反應時間快一倍

再加上「beanfun !樂豆」會不斷地更新及年 度大調整,如何維持Web 品質就更顯重要。 「我們也是經由 Gomez on SaaS 測試之後, 測出開官網平均要 6 秒多,在叡揚專業服務 與工具的協助下,經過半年調整之後,縮短 為 3 秒鐘,等於是快了一倍!」黃景星說,藉 由Gomez RUM 可以偵測出User 在每一個頁 面感受到的“反應時間",讓IT 單位可以藉 由數字更明確了解服務品質改善程度。並透過 dynaTrace 的監控資料迅速找到可改善的問題 點,縮短官網平均反應時間從6 秒到3 秒。

Gomez RUM 迅速釐清發生 問題的區段, 讓負責單位可立即處理

實際上,Gomez on SaaS 就像是個機器人,每一 個小時就會模 擬Client 端拜訪 「beanfun ! 樂 豆」,從世界各 地,在不同的時段,用不同等級的電腦配備發 起交易,讓管理者可以了解不同區域或不同的 電腦配備對服務的效能反應,並寄送報表通知 網站有無異狀;而Gomez RUM 則如同雷達掃 描,透視使用者行為分析,知道User 從哪裡 來,在看哪一些頁面,他在每一段的系統感覺如何( 回應時間) 及迅速釐清發生問題的區段, 讓負責單位可立即處理;至於dynaTrace 監控 系統,則是像X 光機,協助IT 同仁收到問題單後立即定位問題,重現總是發生在過去式的 棘手狀況,藉由24x7,100% 全交易收集,完 整記錄每一筆Transaction 及User 到 DB 的完 整執行路徑,每一個點所花時間,所消耗的資 源,User 輸入的參數,呼叫的元件,SQL 與其 變數,遇到的Exception…等;而這些工具只 要判斷出問題,都會即時主動email 通知,讓 IT 人員可以更主動快一步地解決問題。

dynaTrace 無須花費大量人力重現環境來 定位故障原因

過去一旦有問題,可能會走土法煉鋼的模式, 一台一台去看,並先以重啟系統的方式應急處 理,但這是至標不治本的方式,無法知道真正的原因是在哪裡,導致問題一而再再而三的發生。黃景星說, 以前遇到這樣的狀況,最後會需要跟微軟溝通一起解決,「但 往往動輒好幾個禮拜,甚至要到一兩個月的時間,且常常會 有送去之後資料不夠,無法找出問題或是還要再重送追加 資料。」他說,甚至經過建議修改之後,還是無法改善!

「但問題依舊是要有解才行,被動式地接收客訴不是辦法。」 黃景星嚴肅地說,面對越來越高的系統複雜度及業務需求, 在管理層面上,為了找到問題環節,對於遊戲橘子IT 部門是 一大考驗,畢竟IT 人力有限,一旦出現問題,往往需花費 大量人力重現環境來定位故障原因,並耗費與開發測試團隊 溝通的大量時間與成本。「導入dynaTrace,就如同X 光一樣迅速診斷並分析問題發生在哪裡,就不用像 過去一樣大海撈針,對系統蛛絲馬跡都可更瞭 若指掌。」從IT 角度來看,dynaTrace 是從使 用者點擊網頁開始到最後的資料庫進行完整的 追蹤和捕捉記錄,可完整追蹤和記錄使用者後 台交易執行詳盡資訊,跳脫過往人工化檢視模式,節省大量人力及時間,並讓客訴問題降到最低,同時可以把真正的問題給揪出來。

凡走過必留下痕跡,可說是對本監控系統最佳 的形容詞之一。簡單來說,過去發生問題時, 最頭痛的就是不知道是哪一台Server,也無法 追朔當下情境下所出現的狀況。藉由Gomez RUM 可以讓IT 部門了解當下User 是在哪一 台Server 出了問題,一次全面監控所有Server 及Web 狀態讓IT 人員可以儘速處理;「面對 50~100 台Server 的挑戰,Gomez RUM 可以全 面監控,一旦發現哪一台Server 異常,可快速 藉由dynaTrace 找出問題。

黃景星強調,dynaTrace 有佈署快速的優勢, 再複雜的架構也能在幾十分鐘內部屬完成,所以遊戲橘子配置兩套dynaTrace 可快速即刻切 入Gomez RUM 所發現的問題Server,深入應 用系統內部,讓效能無死角。

導入智慧高效監控幫手 目標把客服做到最好

「導入Gomez on SaaS、Gomez RUM及dynaTrace 監控系統對我們的確很有幫助!」黃景星重 申,今年是導入第一年,就已經協助官網效 能提昇一倍的成績,目前也有計劃做更進一步的添購,也很有信心明年可以發揮出更好的成 績。「尤其我們下一階段目標是讓這套監控系 統可直接協助到第一線的客服上,當有客訴進 來時,藉由自動化流程,讓客服可以馬上知道 問題點並協助IT 進行排除,不用像之前還要 把問題單傳送到第二層,可以節省更多時間及 提昇服務品質。」

最佳支援部隊 感謝叡揚資訊專業服務

而叡揚的支援協助對遊戲橘子來說更是定心 丸。「叡揚團隊是主動會幫客戶想,不是客戶 要求才去做,把遊戲橘子的需求跟困難當成自 己的困難在處理。」黃景星憶道說,合作過程 中,叡揚不僅派很多人力支援,對於官網的改 版調整也相當配合,充分感受到叡揚的專業熱 誠及管理專案的能力,而導入之後,也相當滿 意系統所發揮出來的效能,遊戲橘子也希望能 夠藉由主動式的管理監控,提供給玩家更優質 更快速的服務品質。

進一步了解應用系統效能管理工具Dynatrace 解決方案