選單
GSS 技術部落格
在這個園地裡我們將從技術、專案管理、客戶對談面和大家分享我們多年的經驗,希望大家不管是喜歡或是有意見,都可以回饋給我們,讓我們有機會和大家對話並一起成長!
若有任何問題請來信:gss_crm@gss.com.tw

如何用 C.ai 打造發票掃描機器人

你是否曾經想過,把發票掃描、自動辨識、送出審核這整個流程做成一個機器人?今天就來分享我是如何透過叡揚自家平台 C.ai 打造一個「發票掃描機器人」的經驗,步驟簡單、效果驚人ლ(╹◡╹ლ)  

 C.ai 是什麼? AI聊天機器人輕鬆製作的工具平台


C.ai 是叡揚資訊自家開發的對話服務平台,強調彈性、Low Code,讓開發機器人變得超簡單:

  1. 透過圖形化介面,快速建立並管理機器人流程。
  2. 可串接企業內部系統(API / DB)與 NLP 模型(雲端或地端皆可)。
  3. 一鍵發佈,支援多種 IM 頻道(如 iota、LINE、Teams 等)。
  4. 支援卡片顯示、資料編輯、API 推送等功能,適合打造企業專屬流程機器人。

 C.ai 的應用非常多元,像是 RAG 查詢、客服助理、HR 工具、待辦提醒、問題回報,甚至是今天的主角 —— 發票掃描機器人!

我們先來看一下整體流程:

[1. 傳入發票圖檔]

[2. AOAI OCR 轉換圖片為文字(LLM 處理)]

[3. 程式對文字進行標準化處理]

[4. 使用 C.ai 卡片顯示標準化後內容並提供預覽與編輯]

第一步:提示使用者功能並導引上傳圖片 


一開始先透過 調適型卡片 向終端使用者說明功能,並引導上傳發票圖檔。

C.ai 支援圖片上傳,還能掛載在 iota 或其他 IM 上,使用者可以直接拍照上傳發票。

第二步:AOAI OCR + LLM 轉文字(並處理幻覺問題) 


將圖片交由 AOAI OCR 模組處理,轉換為文字。這時會搭配 LLM 處理語意與結構,但這裡會遇到一個常見問題 —— 幻覺(Hallucination)

也就是說,LLM 產出的 JSON 格式可能不穩定,難以直接對接 C.ai 的卡片。

解法一、定義 Prompt 輸出格式

在 prompt 中加入明確的 Output Schema,要求模型回傳固定欄位格式。


 解法二:用 C.ai 的資料處理節點標準化

C.ai 本身支援 JavaScript 資料處理節點,可以在這裡進行文字標準化與欄位校驗。

建議這兩種方法同時使用,能大幅降低幻覺帶來的風險。

第三步:顯示預覽卡片

接著,我們使用平台的「 明細卡片 」來顯示 OCR 後的欄位資料,讓使用者進行確認與審閱。

如果前面資料未經標準化處理,這裡的卡片就會無法正確顯示。

第四步:提供人工編輯功能

OCR 雖然強大,但辨識錯誤難以完全避免。因此,我們提供 調適型卡片 表單卡片 ,讓使用者可以自行編輯內容。

這不僅讓使用者更安心,也提升辨識流程的準確度。

第五步:送出資料進行審核

修改完成後,只要透過 C.ai 的 API 卡片 就能將資料送出,像是推送到 ERP、會計審核平台,或是寫入 Google Sheet 測試用。

C.ai 內建 API 輸出卡片,設定好 API URL 與 key-value,即可一鍵送出。

登登登登~ 成功了!

總結

從圖片上傳 ➝ OCR ➝ 標準化 ➝ 預覽 ➝ 編輯 ➝ API 發送,整個流程完全可以在 C.ai 上完成。重點是:

  • Low Code,快速開發
  • 高度整合企業內部流程
  • 支援使用者互動與人工修正

如果你也在開發企業流程機器人,不妨來試試看 C.ai,真的會讓你愛不釋手!

 最後附上我家的貓,可愛吧

Dify 實戰教學:打造你的「分析檔案小助手」自動化流程!
如何使用 Dify 和 Python 來建立 Plugin,產生訊息及檔案

相關文章

 

評論 2

Rainmaker Ho (何金鎮) 於 2025/06/23, 週一 08:13

請問是手寫發票嗎?
品項的部份是不是要多筆?

請問是手寫發票嗎? 品項的部份是不是要多筆?
Jaquan Lin (林哲寬) 於 2025/06/23, 週一 09:55

1.目前使用 LLM 的 多模態OCR 進行辨識,能夠辨識手寫文字,但準確度相對較低,未來考慮可接入公司的地端 OCR 提升穩定性。

2.發票品項支援單筆與多筆的結構,目前都能處理。

可以額外分享的是,目前尚未實作多張發票同時處理的功能,目前仍在設計中。
一方面是LLM的OCR處理效果有限,當我們在一輪 Prompt 中要求模型做太多事時,注意力會被拉散,結果每件事都做得不夠精準。
另外是還在構想「預覽」與「編輯」的呈現方式,一張發票的狀況下很簡易的就可以處理,但多張發票仍在評估如何提供良好的使用者體驗與畫面設計。

1.目前使用 LLM 的 多模態OCR 進行辨識,能夠辨識手寫文字,但準確度相對較低,未來考慮可接入公司的地端 OCR 提升穩定性。 2.發票品項支援單筆與多筆的結構,目前都能處理。 可以額外分享的是,目前尚未實作多張發票同時處理的功能,目前仍在設計中。 一方面是LLM的OCR處理效果有限,當我們在一輪 Prompt 中要求模型做太多事時,注意力會被拉散,結果每件事都做得不夠精準。 另外是還在構想「預覽」與「編輯」的呈現方式,一張發票的狀況下很簡易的就可以處理,但多張發票仍在評估如何提供良好的使用者體驗與畫面設計。
已經注冊了? 這裡登入
Guest
2025/06/24, 週二

Captcha 圖像