企業e化應用

AI 關鍵技術:機器學習與實務應用— 以公文系統為例

前往目錄

人工智能發展太快，範圍太廣，AI 的議題就像是陽光、空氣、水一樣，無時無刻在我們生活中充斥著，任何事情只要牽扯到人工智慧，總是受人注目跟關切

近年來人工智能 (Artificial Intelligence, AI) 發展太快，範圍太廣，AI 的議題就像是陽光、空氣、水一樣，無時無刻在我們生活中充斥著，任何事情只要牽扯到人工智慧，總是受人注目跟關切。2016 年 3 月世界矚目的人機對弈，南韓圍棋九段李世乭代表人類與 Google 公司的 AlphaGo 進行大戰，最後以 1:4 成績戰敗，終究人工智慧電腦戰勝了人腦。

人工智能在多場戰役中陸續打敗各國高手後，接著又跨足文學創作領域， 2014 年微軟在中國大陸成立了亞洲研究院，創造了一個人工智慧的詩人小冰，於 2016 年出版了首部詩集《陽光失了玻璃窗》，她透過 519 位中國現代詩人的作品學習，進而擁有「看圖作詩」的能力，只要透過一個圖像就可以寫出跟他相對應的詩句來，這又再度掀起人工智慧的討論。

未來 10 年 50%的工作將會被 AI 取代 - 人工智慧工程院院長李開復

要以 AI 取代現有的工作模式，當然是希望藉此讓工作績效翻倍成長，或是減少錯誤發生，但哪些工作或項目，才適合透過 AI 或是機器學習來輔助企業成長?

越是重複性高、可以透過大量有效的資料加以邏輯歸納，進而產生正確的決策，又或者可以定義出 SOP 的工作，且 SOP 是需要人們數年、數十年、甚至數百年的時間才能學習的事情，在人工智慧時代，透過機器學習只要數小時或數天即可掌握;上述的工作項目，都將會被人工智慧優先取代。同時因為機器不會有情緒影響、不需要睡覺休息，便可做出正確的判斷與處理，所以這些工作， AI 都可以做得比人類更好。

以公文系統為例

應用系統要如何跟 AI 做結合?

想把 AI 運用到企業中需考量以下幾個因素: 重複性工作、有大量適切的資料、執行後容許錯誤、可繼續不斷學習校正。而在公文系統的日常中，每天重複性最高的工作，就是處理分文了，舉凡從機關收到一份公文要正確且快速的分給正確的單位以及人員，這部分就可以借用 AI 來進行協助。

在自動分文的新科技中，使用最重要的關鍵技術就是自然語言處理 (NLP-Natural Language Processing)，大多文章或文字內容都是複雜且凌亂的非結構性資料，無法利用傳統的結構性資料處理方式進行統計分析，必須先經過清整才能使用，我們經由以下四個步驟來進行中文的處理:

1. 斷詞處理

中文的自然語言處理之所以複雜跟困難，一個重要的環節是斷詞，在外國語文中，字跟字中間都有使用空白隔開，要透過系統處理相對簡單，但中文都是一句話、一篇文章，因此，第一要件就是把一句話進行解析，比如:公文文書中「主旨:敬請辦理新公文系統教育訓練乙事。」，系統要斷詞成「主旨/:/敬請/辦理/新/公文/系統/教育/訓練/乙/事/。」。

2. 詞性標註

接著就要將已經斷好的詞字進行詞性的標註，其中「主旨/公文/系統/教育/訓練/事」為普通名詞;「敬請/辦理」為動詞;「新」為形容詞...等。

3. 消除贅字

每個詞都標注好自己的屬性後，接著就是過濾贅字，將一些對分類判斷邏輯無用的的詞句 (如連接詞等) 先行去除，只留下一些關鍵詞。

4. 特徵擷取

此階段也是相對困難與專業的，在特徵擷取中，我們使用兩個關鍵的機器學習的演算法，其中一個是 TF-IDF (Term Frequency - Inverse Document Frequency)，也就是這個詞在這篇文章出現的次數跟頻率，表示該字詞對這篇文章的比重，但相反的，如果該詞在每一份文章都有出現，則同時代表著，該詞對這篇文章的重要性將成反比。舉例來說，雖然我們第三步驟已經將一些贅詞去除，留下有用的關鍵詞，但也不代表所留下的詞都是同等重要的。比如每份公文都有「主旨」兩個字，雖然他出現的頻率很高，也因為每份公文都有，因此這兩個字一點也不影響分文的結果，我們就是透過 TF-IDF 來計算這些關鍵字在文章中的權重。

另一個是使用到的機器學習演算法是 Word2Vec，此模型可用來映射每個詞到一個詞的向量，可用來表示詞對詞之間的關係，舉例來說，就是「男人」與「女人」或是「男孩」與「女孩」，雖然它們文字看起來是不同的，但分別轉換成詞向量後，兩組的向量是相同或是相近的，以至於可以利用這個向量分析，進而找到「國王」與「皇后」之間也是類似的向量關係，透過這樣的向量相關，可以找出看似不同但實際有相關的公文內文。

當我們有能力將複雜的公文內容拆解分析後，利用數十萬、數百萬件歷史公文進行分析，並與這些大量的公文實際處理的主辦單位/人進行比對、訓練後，建立出一個分類模組，這樣未來當企業或機關收到一份新公文時，經由分類模組就可透過類別的評分，產生出分類的結果，順利達到自動分文的效果，這樣結果未來也需要透過不斷回饋校正，才能維持它的準確度。這樣的執行方式，我們曾用 6,000 筆公文資料進行模擬，經由兩天的機器學習，再利用 600 筆資料來驗證結果，實驗結果自動分文的正確率可高達 85% 以上。

雖然有了上述優秀的實驗結果，但我們不能期待這樣的模組搬到任何企業都可以即刻開罐使用，事實上這都還需要針對不同企業的資料特性，進行重新調教與學習，即使在同一企業中，也會因為組織改變、業務內容的調整，都會影響每次的分文結果準確度，因此，機器學習 (Machine Learning) 是需要持續不斷進行調校，才能長期發揮其功效。

AI 應用三步驟:

釐清問題、評估資訊、不斷回饋

除了上述的應用例子外，還可以用於協助新進同仁在最短的時間內，學習如何簽辦公文。例如主動辨識來文內容加上自然語言的處理，建立另一個類別模組，自動推薦該份公文適合回覆的文稿範本內容，就可縮短承辦人自行找尋資料與撰文時間;系統更可貼心提供預排流程供承辦人員參考，讓新手承辦人在最短的時間內辦理各項業務，增進工作效率。在撰文的過程中，系統還可以更進階的自動進行公文用語解析，提醒承辦人誤用之語詞，並做正確態樣對照建議，以提升撰文品質。

雖然 AI 看似很強大，但必需有方法實際應用，才能享受到 AI 的高績效少錯誤的優勢，而最佳的方式便是 AI 三步驟:

● Step1:了解人工智能能幫你解決怎樣的問題。

● Step2:是否有足夠且適切的資訊，可以讓機器進行解析與學習。

● Step3:最後經過不斷的回饋與調教，進而提升準確率。

在上述的公文系統例子當中，便是經過上述 AI 的三步驟進行思考、考慮實際情況及設計應用情景，我們才能真正感受到 AI 帶來的好處及價值。