企業e化應用
AI 關鍵技術:機器學習與實務應用— 以公文系統為例
前往目錄
人工智能發展太快,範圍太廣,AI 的議題就像是陽光、空氣、水一樣,無時無刻在我們生活中充斥著,任何事情只要牽扯到人工智慧,總是受人注目跟關切

近年來人工智能 (Artificial Intelligence, AI) 發展太快,範圍太廣,AI 的議題就像是陽光、空氣、水一樣,無時無刻在我們生活中充斥著,任何事情只要牽扯到人工智慧,總是受人注目跟關切。2016 年 3 月世界矚目的人機對弈,南韓圍棋九段李世乭代表人類與 Google 公司的 AlphaGo 進行大戰, 最後以 1:4 成績戰敗,終究人工智慧電腦戰勝了人腦。

 
 
人工智能在多場戰役中陸續打敗各國高手後,接著又跨足文學創作領域, 2014 年微軟在中國大陸成立了亞洲研究院,創造了一個人工智慧的詩人小冰,於 2016 年出版了首部詩集《陽光失了玻璃窗》,她透過 519 位中國現代詩人的作品學習,進而擁有「看圖作詩」的能力,只要透過一個圖像就可以寫出跟他相對應的詩句來,這又再度掀起人工智慧的討論。
 
 

未來 10 年 50%的工作將會被 AI 取代 - 人工智慧工程院院長李開復

要以 AI 取代現有的工作模式,當然是希望藉此讓工作績效翻倍成長,或是減少錯誤發生,但哪些工作或項目,才適合透過 AI 或是機器學習來輔助企業成長?
越是重複性高、可以透過大量有效的資料加以邏輯歸納,進而產生正確的決策,又或者可以定義出 SOP 的工作,且 SOP 是需要人們數年、數十年、甚至數百年的時間才能學習的事情,在人工智慧時代,透過機器學習只要數小時或數天即可掌握;上述的工作項目,都將會被人工智慧優先取代。同時因為機器不會有情緒影響、不需要睡覺休息,便可做出正確的判斷與處理,所以這些工作, AI 都可以做得比人類更好。
 

以公文系統為例

應用系統要如何跟 AI 做結合?

想把 AI 運用到企業中需考量以下幾個因素: 重複性工作、有大量適切的資料、執行後容許錯誤、可繼續不斷學習校正。而在公文系統的日常中,每天重複性最高的工作,就是處理分文了,舉凡從機關收到一份公文要正確且快速的分給正確的單位以及人員,這部分就可以借用 AI 來進行協助。
在自動分文的新科技中,使用最重要的關鍵技術就是自然語言處理 (NLP-Natural Language Processing),大多文章或文字內容都是複雜且凌亂的非結構性資料,無法利用傳統的結構性資料處理方式進行統計分析,必須先經過清整才能使用,我們經由以下四個步驟來進行中文的處理:
 
 

1. 斷詞處理

中文的自然語言處理之所以複雜跟困難,一個重要的環節是斷詞,在外國語文中,字跟字中間都有使用空白隔開,要透過系統處理相對簡單,但中文都是一句話、一篇文章,因此,第一要件就是把一句話進行解析,比如:公文文書中「主旨:敬請辦理新公文系統教育訓練乙事。」,系統要斷詞成「主旨/:/敬請/辦理/新/公文/系統/教育/訓練/乙/事/。」。
 

2. 詞性標註

接著就要將已經斷好的詞字進行詞性的標註, 其中「主旨/公文/系統/教育/訓練/事」為普通名詞;「敬請/辦理」為動詞;「新」為形容詞...等。
 

3. 消除贅字

每個詞都標注好自己的屬性後,接著就是過濾贅字,將一些對分類判斷邏輯無用的的詞句 (如連接詞等) 先行去除,只留下一些關鍵詞。
 

4. 特徵擷取

此階段也是相對困難與專業的,在特徵擷取中,我們使用兩個關鍵的機器學習的演算法, 其中一個是 TF-IDF (Term Frequency - Inverse Document Frequency),也就是這個詞在這篇文章出現的次數跟頻率,表示該字詞對這篇文章的比重,但相反的,如果該詞在每一份文章都有出現,則同時代表著,該詞對這篇文章的重要性將成反比。舉例來說,雖然我們第三步驟已經將一些贅詞去除,留下有用的關鍵詞,但也不代表所留下的詞都是同等重要的。比如每份公文都有「主旨」兩個字,雖然他出現的頻率很高,也因為每份公文都有,因此這兩個字一點也不影響分文的結果,我們就是透過 TF-IDF 來計算這些關鍵字在文章中的權重。
 
另一個是使用到的機器學習演算法是 Word2Vec, 此模型可用來映射每個詞到一個詞的向量,可用來表示詞對詞之間的關係, 舉例來說,就是「男人」與「女人」或是 「男孩」與「女孩」,雖然它們文字看起來是不同的,但分別轉換成詞向量後,兩組的向量是相同或是相近的,以至於可以利用這個向量分析,進而找到「國王」與「皇后」 之間也是類似的向量關係,透過這樣的向量相關,可以找出看似不同但實際有相關的公文內文。
 
當我們有能力將複雜的公文內容拆解分析後,利用數十萬、數百萬件歷史公文進行分析,並與這些大量的公文實際處理的主辦單位/人進行比對、訓練後,建立出一個分類模組,這樣未來當企業或機關收到一份新公文時,經由分類模組就可透過類別的評分,產生出分類的結果,順利達到自動分文的效果,這樣結果未來也需要透過不斷回饋校正,才能維持它的準確度。這樣的執行方式,我們曾用 6,000 筆公文資料進行模擬, 經由兩天的機器學習,再利用 600 筆資料來驗證結果,實驗結果自動分文的正確率可高達 85% 以上。
 
雖然有了上述優秀的實驗結果,但我們不能期待這樣的模組搬到任何企業都可以即刻開罐使用,事實上這都還需要針對不同企業的資料特性,進行重新調教與學習,即使在同 一企業中,也會因為組織改變、業務內容的調整,都會影響每次的分文結果準確度,因此,機器學習 (Machine Learning) 是需要持續不斷進行調校,才能長期發揮其功效。
 

AI 應用三步驟:

釐清問題、評估資訊、不斷回饋

除了上述的應用例子外,還可以用於協助新進同仁在最短的時間內,學習如何簽辦公文。例如主動辨識來文內容加上自然語言的處理,建立另一個類別模組,自動推薦該份公文適合回覆的文稿範本內容,就可縮短承辦人自行找尋資料與撰文時間;系統更可貼心提供預排流程供承辦人員參考,讓新手承辦人在最短的時間內辦理各項業務,增進工作效率。在撰文的過程中,系統還可以更進階的自動進行公文用語解析,提醒承辦人誤用之語詞,並做正確態樣對照建議,以提升撰文品質。
 
雖然 AI 看似很強大,但必需有方法實際應用,才能享受到 AI 的高績效少錯誤的優勢, 而最佳的方式便是 AI 三步驟:
● Step1:了解人工智能能幫你解決怎樣的問題。
● Step2:是否有足夠且適切的資訊,可以讓機器進行解析與學習。
● Step3:最後經過不斷的回饋與調教,進而提升準確率。
 
在上述的公文系統例子當中,便是經過上述 AI 的三步驟進行思考、考慮實際情況及設計應用情景,我們才能真正感受到 AI 帶來的好處及價值。