提示級知識萃取:針對高效推理的非引數化微調替代方案
為何重要
這項技術讓小型模型在不需昂貴微調與低延遲的前提下,具備透明且可由人類即時驗證的長鏈推理能力,極適合法規嚴謹的金融與醫療產業部署。
研究提出名為 Prompt-Level Distillation (PLD) 的非引數化微調替代方案,旨在解決 Chain-of-Thought(思考鏈)推論的延遲與成本問題。該技術將 Teacher 模型的結構化推理模式轉化為指令序列,注入至 Student 模型的 System Prompt 中。實驗顯示,在 Gemma-3 4B 與 Mistral Small 3.1 上,此方法能顯著提升 StereoSet 與 LogiQA 等任務的準確率,同時具備透明可驗證的特性。