特別企劃
影像智慧辨識 InsAI 的大幅進化,超前佈署 AI代理輔助業務流程
前往目錄
AI影像智慧辨識 InsAI解決企業痛點的關鍵不只是把影像「看成文字」,而是能不能把整張表格「看懂」並轉成可用的結構化資料,讓對的資訊進入下一個企業營運流程中,作進一步的使用。

在現代企業營運流程中,時常因為個資法、資安等合規要求,充滿著許多的紙本表單作業,往往需要耗費大量時間心力,以人工確認內容和手動輸入。傳統的OCR解決方案雖然做到了把部分表單影像識別成文字,但依然無法節省資深人員太多時間。我們在和客戶的交流中發現解決痛點的關鍵不只是把影像「看成文字」,而是能不能把整張表格「看懂」並轉成可用的結構化資料,讓對的資訊進入下一個企業營運流程中,作進一步的使用。

AI影像智慧辨識能解決企業營運流程大量的紙本表單作業所耗費大量人力的困境

企業營運流程充斥大量的紙本表單作業耗費大量人力作業

「InsAI智慧辨識系統」 透過知識蒸餾將 LVLM(Large Vision-Language Model 視覺語言大模型)收斂,讓適合台灣各式表單的通用影像辨識模型,有機會成為落地運用的選項。這個通用影像辨識模型的發展目標,是期望將表格中的欄位、標題、註記與版面關係一併解析輸出,後續可直接將結構化結果串接進後續應用系統,實現端到端的文件影像辨識(End to end Visual Document Understanding,E2E VDU);也可以根據特定表單需求,由客戶提供真實場景資料,將通用影像辨識模型打造成專屬單一特定業務流程的辨識專家模型,進一步提高精準度及速度,縮短人工彙整時間。

同時,我們也嘗試將智慧辨識的結果,與LLM(大語言模型)做結合,希望把辨識結果的內容作為 Prompt 或是關鍵字,讓單純的辨識結果透過檢核,進一步也有摘要、報告生成等功能,把「看懂→使用→再行動」串成一條龍,提供給使用者近似 AI 代理人輔助的工作體驗。

AI視覺辨識場景一|提貨單 & 會計師證明表:多版型解析與跨欄位檢核

零售業或製造業的提貨單常見多版面與表格內文的斷行等內容(如提單號、貨櫃/封號、收送貨人、重量/容積與異動紀錄),會計師證明表則牽涉人名、證號、印鑑影像與有效期限等關鍵資訊。InsAI 的智慧辨識,能同時理解「欄位在版面中的語意位置」與「欄位與欄位之間的關聯」,因此即便模板、欄位標籤與排列不同,也能穩定抽取;抽取後再利用「視覺辨識+邏輯規則」進行智慧檢核,例如:提單號格式是否正確、日期是否跨月異常等,系統以比對與高亮方式提示可疑欄位,將人工覆核聚焦在高風險點。此類「擷取→檢核」的流程,也可參考 InsAI.FS 財報智慧辨識系統在財報場景所展示的視覺檢核能力與換頁/換行理解能力,方法論雷同,但規則依表格而動態調整,體現更廣泛的利用。

AI影像智慧辨識在表單欄位中的換行也能夠被辨識與理解

AI智慧影像辨識在表單欄位中的換行也能夠被辨識與理解

AI視覺辨識場景二|支票 & 扣繳憑單:語義比對與法遵型表單的精準擷取

支票處理重點在「數字金額 vs. 中文大寫」、「磁字 vs. 支票號碼、帳號、付款行」等一致性,以及出票/到期日與出票人資訊;InsAI 透過智慧辨識把金額欄、日期欄與票據區塊語義解析,再由規則層進行一致性檢核與異常提示,快速鎖定需人工複核的樣本。扣繳憑單屬法遵型表單,欄位(例如所得者、身分證號、所得類別、扣繳金額等)標準化程度高,但手寫風格與掃描品質差異大;InsAI智慧辨識針對扣繳憑單等公文、證件型表單驗證其可行性,並強調面對「影像雜訊、手寫文字、外文、多版型」等傳統 OCR 瓶頸時,整體語意理解仍能維持穩定抽取與歸檔的效率與準確。對於需大量對帳與稽核的單位而言,這種「欄位—語意—規則」三層結合的 AI 視覺辨識架構,能顯著降低資料登錄錯誤並加速法遵流程。

AI智慧辨識能精準擷取辨識多款法遵型表單的欄位皆

InsAI智慧辨識系統能精準擷取辨識能多款法遵型表單的欄位

 

AI視覺辨識場景三|醫療費用收據 & 手寫表格:多型態内容呈現

不同的醫療院所有不同的格式的醫療費用收據,而每張收據上的細節費用科目,例如手術費、材料費、證明書費...等,也呈現寫法大同小異的狀況。這類單據就很明顯是對於人的閱讀來說是容易的,但是要讓模型理解,就得費一番工夫。若是遇到基層診所,有些醫療費用收據是手寫,就再提高手寫辨識的困難度。同時影像來源有影印後輸出成電子檔,或者是手機翻拍,通常這類型的影像紙本上會有印章痕跡,容易被塞在口袋裡所以有摺痕,甚至水漬等影響的可能,相對於其他類別,影像的乾淨度比較無法要求,算是挑戰比較高的類型。InsAI 智慧辨識以語義理解處理「表頭—明細—總計」的層次關係,抽取後可自動彙總並輸出結構化資料,以縮短核對時間,讓現場隨拍、歷史掃描或非標準紙本都能被「看懂」,最後以結構化輸出進 ERP/票據/理賠系統。InsAI 智慧辨識將協助企業建置專屬 AI辨識解決方案,助益組織處理繁瑣的表單作業。

VDU 以區塊語義理解處理「表頭—明細—總計」的層次關係

VDU 以區塊語義理解處理「表頭—明細—總計」的層次關係

VDU+ LLM 實踐抽取更準、驗核更快、交付即用目標

InsAI 智慧辨識在財報場景展示的能力延伸到「表格」應用;其中「視覺檢核、換頁/換行理解、API 串接與結構化輸出後生成報告」等做法,皆可按照表單型態(提貨單、會計師證明表、支票、扣繳憑單、醫院收費單、手寫任意表格)配置規則與語意範本,以達到「抽取更準、驗核更快、交付更即用」的目標,實踐用AI協助人員作業大幅提升效率的最佳典範。

同時相當多單位在意個資與資安保護問題, 因此期望所應用的模型可以在企業內落地建置,以CP值較高的模式規劃軟硬體架構,降低對 GPU 資源的高度依賴性,同時又不能影響整體業務執行的效果,這些期望也在 InsAI 努力的目標願景中。服務團隊將搭配客戶的實際應用場景,輔以近年研究的辨識模型成果,設計搭配不同的訓練模型手法,以及配合應用系統面的設計巧思,以解決客戶問題。

最後,雖然在某些影像還有難題待解,例如機械設計圖、建築設計圖面、複雜底色花樣的海報圖案、多重選擇的勾選框...等等。但對於通用模型的「通用」二字,相信以叡揚資訊持續研究跟投入的積極度,與世界技術整體進步飛快的速度,要能同時兼顧泛用性與精確性,InsAI 影像智慧辨識更全面的應用著實令人興奮與引頸企盼。