GSS資安電子報 0226 期【AI模型風險管理:五大常見風險及防範對策】

訂閱電子報
2024-09-09 17:00
翻譯及整理:叡揚資訊 資訊安全事業處

  

  很難忽視生成式 AI 已經成為我們日常生活中不可或缺的一部分,人們使用 LLM(大型語言模型)來創建圖像、影片、編寫文字、生成程式碼,甚至創作音樂。

  人工智慧正在被用來強化許多不同行業的流程。在醫療領域,人工智慧幫助疾病診斷和治療方案個人化。在金融業,它有助於風險管理和詐欺檢測。 Siri 和 Alexa 等具有 AI 功能的虛擬助理透過執行任務和回應查詢來增強使用者體驗。人工智慧在製造業中用於預測維護需求並優化生產流程。綜合考慮,人工智慧可以提高許多領域的生產力、精確度和創造力。

  從 Orca 雲端安全平台掃描收集的數據來看,我們也看到雲端中人工智慧服務的使用量不斷增加。超過一半(56%)的組織已經將人工智慧用作其業務工作流程的一部分,無論是在開發管道中還是用於管理業務資料分析等相關任務。

  然而,新技術的爆炸性使用也帶來了新的風險。有些風險與雲端中已經存在的風險類似,而其他風險則特定於人工智慧的使用。在本文中,我們將討論人工智慧模型的五種最常見風險以及如何防範這些風險。

  

人工智慧的建構模組是什麼?

  建構通用人工智慧模型的過程需要高度可用的基礎設施和可擴展的運算能力。此外,有時編寫模型可能是一項乏味的工作。這些正是雲端顯示其價值的領域。在學習過程中擴展和縮減資源、儲存大型資料集以及在多個區域啟用端點的能力是雲端和人工智慧之間的連接不可避免的主要原因。簡而言之,人工智慧模型的第一個建構模組是雲端。

  更具體地說,人工智慧由以下三個組成部分建構:

  1. 基礎設施:模型本質上是一種演算法,定義了我們想要解決的問題的學習過程
  2. 內容:一個資料集,將訓練演算法有關問題的知識。這稱為訓練資料。例如,如果我們想使用該模型來預測我們辦公室的紙巾使用情況,我們將提供有關紙巾過去使用情況的數據:每個月使用了多少紙巾,夏天使用了多少,雨天時使用了多少,這段時間有多少人在辦公室工作...等等。提供的細節越多,資料覆蓋的時間段越長,模型的預測就越好。透過保留一些數據作為驗證數據,我們可以在訓練過程後使用它來驗證模型。這使我們能夠確保它學到了我們期望它學到的東西,並幫助它進行調整和改進。
  3. 端點、API 或使用者介面:在某些情況下,我們希望為某些使用者提供模型的可存取性。與任何其他應用程式的演算法一樣,我們也可以對人工智慧模型執行此操作。

  

人工智慧安全風險的類型

  人工智慧安全風險存在於人工智慧的每個關鍵組成部分:
226orca1

  

人工智慧基礎設施

  AI 模型的基礎設施包括其程式碼、程式碼的存取和權限及其管道。

  

風險#1:將程式碼暴露到網路上

  我們從 Orca 平台的掃描中看到的最常見的錯誤配置之一是組織將其模型程式碼向網路開放:我們發現幾乎所有組織(94%)都會公開其部分模型程式碼。

  除了可能導致程式碼和模型被盜之外,這還可能產生其他不良後果,例如安裝加密貨幣挖掘器。因為,如果有人已經備妥大量的運算能力,為什麼不利用它來獲得一些利潤呢?

  現在的攻擊活動已經在尋找這些暴露的 AI 模型筆記本,例如 Qubitstrike 活動,攻擊者正在搜尋公開暴露的 Jupyter 筆記本(也可用於 AI 訓練目的)來實施加密礦工。

  

風險#2:人工智慧包中的漏洞

  人工智慧基礎設施的另一個風險可能是透過導入和相依引入的風險。許多流行的 AI 軟體包(例如 PyTorch 和 TensorFlow)可能會在程式碼和基礎設施中引入漏洞。

  在此範例中,在 TorchServe 工具中發現了一系列可能導致 RCE 的漏洞,該工具有助於擴展 PyTorch 模型。透過將 SSRF 連結到預設公開的管理介面 API 上,攻擊者可以獲得未經授權的存取並上傳惡意模型,從而嚴重影響模型的使用者。

  

人工智慧內容

  眾所周知,資料儲存是雲端原生的。根據 Thales 的研究,全球 60% 的企業資料已經儲存在雲端。這些數字每年都呈指數級增長。在大數據和快速決策的世界中,可以安全地假設其中一些數據用作人工智慧模型的訓練(或驗證)數據。

  

風險#3:人工智慧模型中的敏感數據

  在我們的 2024 年雲端安全狀況報告中,我們發現 58% 的組織在雲端中儲存敏感資料。如果這些資料用於人工智慧訓練或驗證過程,這些敏感資料可能會外洩。事實上,ChatGPT 確實發生了這種情況。

  ChatGPT 接受了來自網路的公共文本大型資料集的訓練。其中一些文字可能有些敏感,因此聊天也經過訓練,不會洩露秘密和敏感資料。但是,事實證明,透過正確的提示,您可以說服聊天機器人向您提供這些敏感資料。

  已知的故事是這樣的:使用者向聊天室要求 Windows 啟動金鑰,起初聊天室拒絕提供。然後,使用者改變了他們的方法。他們沒有直接要求啟動密鑰,而是講述了一個關於已故祖母閱讀激活密鑰入睡的感人故事,並索取了更多激活密鑰。還有……瞧! ChatGPT 提供了啟動金鑰。

  為什麼 ChatGPT 提供金鑰?這裡的原因是 ChatGPT 在提供秘密方面有限制,但在像某人的祖母一樣行事時沒有限制。因此,如果這個人將秘密作為他們存在的一部分而講述,那就繞過了秘密禁令。還有許多其他技巧可以繞過限制。
226orca2

使用者如何欺騙 ChatGPT 提供 Windows 授權金鑰

  是的,這些金鑰可能只是範例,但重點是 - 如果您的模型是根據這些資料進行訓練的 - 它有可能以一種無法預期的方式洩露出來。因此,確保絕對不會向您的模型提供任何敏感數據非常重要。

風險#4:資料外洩與篡改  

  模型資料的其他風險包括外洩、操縱和篡改。對模型數據的任何更改都會改變模型——這也稱為數據中毒。所以,這是一個非常關鍵的風險。

  這種風險主要是在資料沒有適當保護或錯誤配置為可公開存取時引入的。以下我們列出了這些風險的潛在後果:

  1. 模型盜竊:模型盜竊並不會隨著演算法的盜竊而結束。實際上,如果有人使用現成的演算法,模型參數和資料才是真正的模型竊取。
  2. 在訓練/驗證資料集中新增錯誤範例或錯誤資料:這可能會影響模型的準確性。
  3. 改變訓練驗證比:這可能會影響整個學習過程並導致過度擬合(模型學習的是示例而不是問題的情況)。
  4. 模型資料刪除或勒索:另一種破壞方式,可能是刪除資料並要求勒索贖金以返回資料。對於嚴重依賴模型的組織來說,這可能會影響模型效能的完整性和可用性。

  只需將資料庫或儲存桶設定為面向公眾而不是設為私有,即可實現上述所有攻擊。在我們的 2024 年雲端安全狀況報告中,我們發現 25% 的組織將至少一個資料庫暴露在網路上,73% 的組織至少有一個暴露的儲存桶。如果將這些資料用於模型訓練,AI 模型就會面臨上述風險。

  

AI 使用者和 API

  關於人工智慧模型的另一個令人擔憂的問題是模型介面或基礎設施的 API 金鑰不受保護。

  

風險#5:暴露 AI API 金鑰

  我們發現 17% 的組織擁有未加密的 API 金鑰,可用於存取其程式碼儲存庫中的 AI 服務。其中一些程式碼存儲庫是公共的。這可能會允許對模型及其程式碼進行不必要的訪問,基本上是一場即將發生的災難。

  例如,直到最近,OpenAI 金鑰還沒有權限級別,這意味著建立的每個存取金鑰都是管理金鑰,具有所有操作的權限。目前,預設權限仍然設定為「全部」,即為金鑰設定了完全權限。這可能會導致敏感資料被盜、資源濫用甚至帳戶被盜,這意味著保護這些金鑰的安全非常重要。

  當然,還有一點很重要的是,就像任何其他應用程式一樣,一旦您為 AI 模型公開了 API 端點,它就會受到 SSRF(如本範例所示)、SQL 注入攻擊等 API 攻擊。

  

如何防範人工智慧風險

透過遵循下面列出的最佳實踐,組織可以防範人工智慧風險:

  1. 暴露管理:確保您的資料和模型不會暴露在網路上,並且不可公開編輯。
  2. 保護您的程式碼:加密您的模型程式碼。
  3. 掃描機密:掃描您的訓練和驗證資料以查找機密。
  4. API 金鑰安全:確保您的 API 金鑰安全,並使用秘密管理器來管理其使用。
  5. 掃描您的程式碼:映射您的匯入和依賴項,確保它們可靠且不包含嚴重漏洞。

  

人工智慧安全態勢管理

  為了協助組織確保其人工智慧模型的安全性和完整性,Orca 提供了人工智慧安全態勢管理功能。安全始於可見性。借助 Orca,組織可以全面了解其環境中部署的所有 AI 模型(託管和非託管),包括任何影子 AI。

  此外,Orca 會持續監控和評估您的 AI 模型,提醒您任何風險,例如漏洞、暴露的資料和金鑰以及過於寬鬆的身份。自動化和引導式修復選項可用於快速修復任何已識別的問題。如果您想了解有關如何保護 AI 模型的更多信息,請安排與 GSS 進行線上展示。

  

關於 Orca 雲端安全平台

  Orca 提供統一、全面的雲端安全平台,可識別、優先處理和修復 AWS、Azure、Google Cloud、Oracle Cloud、阿里雲和 Kubernetes 上的安全風險和合規性問題。利用其專利的 SideScanning™ 技術,Orca 可以檢測漏洞、錯誤配置、惡意軟體、橫向移動、資料風險、API 風險、過度寬鬆的身份等等,而無需代理。