區域近端策略最佳化:教師入提示而非入梯度
為何重要
ZPPO 為小型模型的預訓練與訓練策略提供了新思維,透過將教師知識注入而非僅靠梯度更新,有效解決了強化學習中針對失敗 rollout 資料的利用困難問題。
傳統知識蒸餾與強化學習在小型模型上往往缺乏泛化能力,研究團隊因此提出「區域近端策略最佳化」(ZPPO)架構。ZPPO 不透過梯度傳遞教師能力,而是將教師響應編入 Prompt,利用二元與負面候選提示引入反覆迴圈與精煉;在 Qwen3.5 系列(0.8B-9B 學生、27B 教師)的 31-benchmark suite 測試中,其表現優於 off/on-policy distillation 及 GRPO,特別是在小型模型上帶來顯著效益。