DeepSeek 帶來的技術突破、影響與需注意之事
為什麼 DeepSeek 推出造成世界級轟動?
進一步討論前,我們先回顧近年來大語言模型的訓練情況。根據 Meta 的研究報告,2024 年,Meta 使用了一個由16,384 片 NVIDIA H100 GPU 組成的計算叢集,耗時 54 天訓練 LLAMA 3.1 405B 模型。考量到每片 H100 GPU 的價格介於數十萬至百萬新台幣之間,可見訓練成本極為高昂。除了龐大的算力需求, 大語言模型的訓練還涉及大量人力與時 間,特別是在基於人類回饋的強化學習(RLHF, Reinforcement Learning fromHuman Feedback)階段,雖然訓練過程中已經透過獎勵模型(RM, Reward Model)部分取代人工評估,以減少逐筆檢查的需求,但 RM 本身仍需仰賴大量高品質的人工標註數據進行訓練,而這個標註過程仍是一項高度人力密集的工作。因此,一般而言大語言模型的訓練的成本需要上億美元。
因此,DeepSeek 特別強調其 DeepSeek-V3 671B 模型「僅用兩個月時間,使用 Nvidia H800 GPU 訓練完成,開發成本僅為 550 萬美元」的說法引起巨大的迴響,因為這意味著其訓練成本僅為 OpenAI、Meta 等大公司訓練類似模型的二十分之一,卻能達到相當的效果。然而,若仔細閱讀 DeepSeek 公開的 DeepSeek-V3 訓練技術文件,可以發現 550 萬美元的估算是基於租用雲端 H800 GPU 的假設條件,即每小時 2 美元,總計 278 萬 GPU 小時推算而來。但實際情況是 DeepSeek 若採用的是自建 GPU 設備,成本結構就會與雲端租用不同。此外,該估算僅計算了 GPU 運算時數,並未涵蓋研發、資料處理、測試人力成本,也不可忽略 DeepSeek 前代 V1、V2 等模型所累積下來成果及訓練資料等影響因素。或換句話來說,若現在我們有 550 萬美元,並照著 DeepSeek 公布的技術文件進行訓練,是不可能訓練出跟 DeepSeek-V3 相當的結果。
2024 年 12 月 16 日,DeepSeek 發布了上述的 DeepSeek-V3 基礎模型,該模型強調的低訓練成本,並採用混合專家模型(MoE, Mixture-of-Experts)架構,在總參數量 671B 的情況下,每個 Token 處理時僅啟用其中約 37B 的參數,大幅提升推理效率並降低硬體資源消耗。憑著訓練與推論階段都擁有的成本優勢,成功吸引了業界目光。而僅僅 一個月後,2025 年 1 月 20 日,DeepSeek 進一步發布了 DeepSeek-R1 推理模型(Reasoning Model),這一版本則是在回答問題時展現出的推理與思考能力讓人驚艷。雖然 DeepSeek 並未公布 R1 的具體訓練成本,但從技術文件中可以了解到 DeepSeek-R1 的訓練極大程度上依賴於 DeepSeek-V3。R1 的推理能力顯著提升,很大程度上得益於 DeepSeek-V3 擁有 6,710 億(671B)的大型參數量,這使得 R1 在進行大量強化學習(RL, Reinforcement Learning)訓練過程中自行演化出更強的推理能力。 因此,若要合理推算 DeepSeek-R1 的訓練成本,必須將 DeepSeek-V3 的訓練成本納入計算,才能得出更貼近實際的成本數據。
但 DeepSeek 透過不同的訓練策略,使用較低階的 GPU 設備及較少的訓練時間,就能完成訓練工作也是不爭的事實。深入了解 DeepSeek-R1 的技術文件指出,在 R1 的訓練過程中,總共經過了三階段:
第一階段
以 DeepSeek-V3-Base 為基礎,在未採用監督式微調(SFT, Supervised FineTuning)的情況下,直接利用名為 Group Relative Policy Optimization (GRPO) 的方式進行 RL 訓練,訓練出 DeepSeekR1-Zero,該模型展現了自我驗證與反思等能力,但其生成結果可讀性較低,且會出現語言夾雜(例如中英夾雜)的問題。
第二階段
基於第一階段的結果顯示,完全不依賴監督式訓練會影響模型的生成品質,因此,改採用 DeepSeek-V3-Base 基礎模型及 DeepSeek-R1-Zero 先產生初始訓練資料(Cold Start Data),其中包括問題、思考鏈(CoT, Chain-of Thought)及答案。這些資料經過人工篩選及整理,組合成高可讀性的高品質資料。接著,以這批 Cold Start Data 作為學習推理的範例,對 DeepSeek-V3-Base 進行監督式微調(SFT, Supervised Fine-Tuning)。隨後,利用微調後的 DeepSeek-V3- Base 及 DeepSeek-V3 產生共計 80 萬筆的訓練資料,其中包括「含推理資料 (Reasoning data)」及「不含推理資料 (Non-Reasoning data)」,作為進一步SFT 的訓練資料集。經過再次 SFT 及 RL 步驟後,使 DeepSeek-V3-Base 微調訓練成 DeepSeek-R1。
第三階段
此階段屬於實驗性質,嘗試透過知識蒸餾(Knowledge Distillation)技術,把訓練完成的 DeepSeek-R1 作為老師模型,將其推理能力「傳授」給學生模型: 如 Qwen、Llama 等參數量較少的模型 (1.5B,7B,8B,14B,32B,70B),經過知識蒸餾的方式,成功賦予小型模型也有推理(Reasoning)能力。
使用 DeepSeek 潛藏的風險
不過,若要直接使用 DeepSeek,我們必須注意可能會面臨以下風險:
1.若直接使用雲端上的 DeepSeek 對話或模型服務,最主要的風險在於可能發生的資料外洩問題。將公司的內部文件、營業機密等資訊輸入公有對話模型,存在一定風險,因此需特別留意該服務的使用規範及資料保護承諾,就算是 ChatGPT 的免費版本,其服務條款也明確指出,使用者的對話紀錄可能會被用於訓練或再利用。此外,若政府機關使用者將公務資訊交由中國的 DeepSeek 服務處理,不僅面臨上述風險,更違反相關作業規範。
2.如果使用的是部署在自家機房的落地版 DeepSeek 模型,雖然能避免機敏資料外洩的風險,但由於大語言模型在訓練過程中深受其訓練資料影響,原本常見的偏見、政治立場、智慧財產權爭議及文化差異等問題,在 DeepSeek 上可能會更為顯著,實際使用不難發現,該模型經常以簡體中文回應問題。因此,在使用 DeepSeek 時需格外謹慎。不過,我們仍可借鑑其技術架構,來優化自己的解決方案。
叡揚以知識蒸餾減少模型規模 並透過多個場域驗證
然而,透過知識蒸餾進行模型訓練,並非 DeepSeek 的獨家技術,叡揚資訊除了在 LLM 相關的研究計劃持續的在做實驗跟優化,並一直利用 SFT(Supervised Fine-Tuning)手法來完成知識蒸餾的步驟。我們更在 2024 年 9 月就提出以知識蒸餾作為 E2E-VDU(End to End Visual Document Understanding)模型訓練的重要環節,並獲得數位發展部評審的肯定,成功入選 113 年度「AI 領航推動計畫 II」。叡揚的 E2E-VDU 模型主要基於 Transformer 架構實現的生成式模型為主,藉由融合圖像與文本資訊,以提升對文本影像的理解能力與內容結構的完整性。除知識蒸餾技術以外,我們透過 PEFT(Parameter-Efficient FineTuning,參數高效微調)的技術也使模型在因應不同需求時,可以快速進行微調,進而提升模型的適應性與擴展性。 同時,為了提升服務可以在有限資源下運行,我們也藉由量化的技術(Model Quantized),實現在資源受限的環境中仍能保有一定的可行性。叡揚資訊選擇此研究方向,主要是因應市場需求與客戶在硬體成本上的壓力,透過該方法,模型參數量可有效縮減 80% ~ 90%,使企業能以更少的 GPU 資源,甚至僅使用 CPU,即可享受 AI 模型帶來的效益,大幅降低運行成本。透過叡揚資訊開發的「InsAI 智慧辨識系統」,企業便可輕鬆運用 E2E-VDU 模型處理及解析各類文件,例如各類擁有表格、勾選欄位的複雜文件(如申報單、紀錄表…等)、手寫文件(如存款單、手寫收據…等)。系統可自動解析文件並輸出結構化資料, 若透過 API 介接,還能以 JSON 格式直接與現有系統整合,快速賦予現有流程 AI 能力,提升自動化處理效率。
我們認為隨著相關技術的成熟,未來 AI 應用發展可預期將朝以下方向演進:
1. 專用小參數語言模型興起
由於成本與效能考量,企業不會單純依賴單一大參數語言模型,而是針對特定應用場景或領域資料,訓練多個小型語言模型,以提升精準度與效率。
2. 大語言模型與小語言模型的協同運作
小語言模型可負責特定領域的內容生成,再由大語言模型進行彙整、翻譯或潤飾等高階處理,以提升整體應用的精確度及價值。
3. GPU 需求將隨著應用持續增加
隨著 AI 模型在各種應用場景的導入,對於 GPU 的需求將會從大型的訓練機構轉至各企業內部,遍地開花的結果讓 GPU 整體需求將不降反增,未來 AI 訓練與推論架構將更強調效能與成本的平衡。
AI 治理成為未來焦點
因 DeepSeek 而讓世人得知知識蒸餾技術的廣泛應用,正加速推動 AI 產業進入更高效率、更低成本的時代,隨著 AI 訓 練與推論技術的進一步優化,企業將能更靈活地部署 AI 解決方案,然而多個不同的應用系統使用多個不同的小型語言模型或大語言模型,將引發資訊治理上的挑戰。為解決此問題,於 2023 年 12 月叡揚舉辦之 AI Solutions Day 提出 LLM Gateway 的概念,以一個 LLM 為 Common agent 先判斷問題後,再交由後頭其他小模型之最適者來進行推論,協助企業管理多對多的模型應用關係,此概念立即獲得客戶認同,並於 2024 在某部會實作完成,提供以下核心功能:
1. 集中管理語言模型:可統一管理地端部署或雲端的語言模型,並對收費的雲端模型進行費用控管。
2. 統一規格的 API:讓各應用系統透過與 OpenAI 相容的 API 格式呼叫不同的語言模型。
3. 集中的模型權限管理:可設定不同應用系統對不同語言模型的多對多存取權限。
4. Prompt 記錄與查詢:紀錄每一次的 Prompt,並可依應用系統進行查詢。
5. Token 量統計與費用預估:紀錄每一次語言模型的輸入與輸出 Token 數,並可對收費模型進行費用預測。 整體而言,隨著 AI 硬體成本的持續下降,AI 應用的普及將進一步加速,企業與個人都能以更低的成本獲取高效率的 AI 服務。但無論技術如何發展,資訊應用與管理始終是資訊業界的核心本質,未來的挑戰將圍繞如何更有效率地整合與運用這些新一代的技術。