特別企劃
文件影像理解再進化 - 讓企業降本增效的InsAI智慧辨識
前往目錄
叡揚資訊結合了End to end VDU(Visual Document Understanding)和 LLM(Large Language Model)技術,為企業客戶提供更精準、更有效率的文件影像擷取加生成的企業應用解決方案。隨著人工智慧技術的發展,文件影像理解技術正逐漸改變著我們處理資訊的方式。

隨著人工智慧技術的發展,文件影像理解技術正逐漸改變著我們處理資訊的方式。叡揚資訊作為台灣企業e化應用軟體開發與專案服務的領導廠商,結合了End to end VDU(Visual Document Understanding)和 LLM(Large Language Model)技術,為企業客戶提供更精準、更有效率的文件影像擷取加生成的企業應用解決方案。

2023 年橫空出世的 GPT-4 因其準確性較先前的大型語言模型的大幅提高而受到稱讚,並且受到世人的大幅期待。但大語言模型是通用模型,在廣泛的任務中表現出色,卻不是針對特定任務(例如情感分析、命名實體識別或數學推理)進行訓練,因此當目標是想應用到特定任務時,有所侷限 ; 同時大型語言模型對於運算資源的仰賴程度極高,GPU, 記憶體, 電力等等都是企業運用時遇到的瓶頸。為此,叡揚資訊從早期的 Deep Learining AI OCR 轉投入了End to end VDU的研究,期望有新的方案可解決現況。

End to End VDU 是一種文件影像視覺理解技術,它能將文件影像中的文字、圖像、表格等資訊,轉化為電腦可理解的結構化資料。其技術來自於GenAI興起之後的 LLM 中的一種 - LVLM(Large Vision Language Model,大型視覺語言模型),也是一般大家在使用 AI生成圖像背後的技術,LVLM的知識豐富且可以生成充滿創造力的圖像,如同 LLM 要在組織中使用會碰到的困擾,知識豐富增加了推論的成本,充滿創造力則容易扭曲具體的答案,叡揚資訊透過知識蒸餾的方法,將 LVLM 縮小成特定領域可以使用的視覺模型,不僅降低部署及營運成本,也可以更精準地控制模型解析出來的答案。

它能理解整個圖像的意義,並具備生成結構化資料的能力,叡揚資訊應用 End to End VDU 打造出強大且先進的文件影像理解平台 InsAI,應用於各個以往無法解決的表單辨識領域。

智慧辨識平台 InsAI 架構概念

InsAI 智慧辨識平台架構概念

VDU 文件影像理解,以財務報表自動化為例

財務報表自動化是 InsAI 的一個重要應用場景,我們特地取名為 InsAI.FS。傳統的財務報表處理方式,需要人工閱讀、登打和校對,效率低下且容易出錯。叡揚資訊的 InsAI.FS 財報智慧辨識解決方案,可以自動辨識財務報表中的各項資訊,包括科目名稱、金額、日期等,並將其轉化為結構化資料,大幅提高了財務報表處理的效率和準確性,已經實際運用在客戶端。

 財報智慧辨識系統 InsAI.FS: 財報自動化應用

 InsAI.FS 財報智慧辨識系統: 財報自動化應用

 InsAI.FS財務報表智慧辨識系統彷彿具備了邏輯推理能力,能夠理解財務報表中不同欄位代表的意義,在數據資訊擷取之後,系統可協助提示表格中的數據是否需要驗證、找出數據之間的矛盾之處等等。這就像是一位經驗豐富的專家,幫您審核文件、找出潛在問題,輔助使用者大幅縮減繁瑣動作所需要的執行時間,而可以把寶貴的時間投入更需要決策判斷的環節。

文件影像理解再進化,客戶給我們的題目

然而我們發現客戶企盼需要由影像擷取的資訊五花八門,原以為是成熟領域的 OCR 辨識技術,原來在很多地方仍然有瓶頸。以財務應用方面為例,除了財務三大表之外就還有企業年報、稅報、401報表、403報表、暫結報表…等等。傳統上無法突破的原因,可能是表格過於細碎、影像品質不優、各式雜訊、手寫文字、外文… 甚至是上述數種特徵的結合體。

因此除了財務報表自動化,叡揚資訊的InsAI 智慧辨識技術目前已經實際測試許多客戶提供的應用場景,例如:

  • 金融業:付款授權書、取款條、匯款條、外匯相關申請書、存摺、對賬單...等,節省大量金融從業人員手動登打的時間。
  • 企業全球化:申報單、發票、報價單、訂單...等,多數目的為對國外業務及政府溝通的表單辨識。
  • 政府單位:公文書、報關單、扣繳憑單、身份證、護照、健保卡,協助公部門簡化必要的表單輸入時間。
  • 企業永續:水電費單據、高鐵票據等憑證類,多數為企業為了 ESG 進行碳排計算使用。

我們透過持續優化 End to End VDU 技術,以及所研發出的 InsAI智慧辨識平台,試圖解決大量因爲法規而存在的紙本文件影像數位化痛點。而結構化之後的數位資訊除了提供原有的作業流程及系統使用,我們也發現可以作爲 LLM 生成時的一種 Prompt 組合的來源,可以協助使用者在完成文件影像辨識後,直接得到最後的報告,保留大量的人員作業時間在更重要的審閲及結果判斷。

智慧辨識的 VDU + LLM 成果: InsAI 影像自動生成報告應用

InsAI 智慧辨識的 VDU + LLM 成果: 影像自動生成報告應用

美好的未來需要持續的投入研究與努力

近兩年的 AI 發展速度大幅超越以往各個年代的科技進展速度,技術的演化在此當下仍然在進行中。叡揚資訊將持續投入研發資源,不斷打通瓶頸並拓展務實應用領域,為企業提供更智慧化的文件影像解決方案。持續進化基於輕量化 End to End VDU 模型開發的 InsAI 智慧辨識平台,據以降低實際運用的硬體資源需求,減少訓練需要的實際影像資料量,提高數據擷取準確度。

願景是可以透過自然語言直接與其溝通,完成特定領域任務,取得文件影像的關鍵資訊並進一步執行其他應用,甚至考量法規實務面因素,我們也朝著直接讓企業客戶搭配 InsAI 智慧平台,自己標記、自己訓練屬於自己的VDU模型。當然,如何巧妙結合不同的 AI 技術,包含 NLP/NLU 等叡揚十年來的累積技術經驗,讓我們的解決方案能減少幻想而更具體幫助企業運行,由 AI 輔助決策進一步轉為 AI 驅動決策,讓我們稀量的人才資源可以將時間用在更具價值的環節,降低人力時間成本,提高人才貢獻度,使企業效率再進化,我們相信未來指日可待。


請留下您的基本資訊,我們將會儘快與您聯絡。

此為必填欄位

請選擇你有興趣的產品

Please type your full name.

Invalid Input

Invalid email address.

Invalid numbers.

Please specify your position in the company

Invalid Input

此為必填欄位