區域近端策略最佳化：教師入提示而非入梯度

研究 1 個來源 · 1 小時前

為何重要

ZPPO 為小型模型的預訓練與訓練策略提供了新思維，透過將教師知識注入而非僅靠梯度更新，有效解決了強化學習中針對失敗 rollout 資料的利用困難問題。

傳統知識蒸餾與強化學習在小型模型上往往缺乏泛化能力，研究團隊因此提出「區域近端策略最佳化」（ZPPO）架構。ZPPO 不透過梯度傳遞教師能力，而是將教師響應編入 Prompt，利用二元與負面候選提示引入反覆迴圈與精煉；在 Qwen3.5 系列（0.8B-9B 學生、27B 教師）的 31-benchmark suite 測試中，其表現優於 off/on-policy distillation 及 GRPO，特別是在小型模型上帶來顯著效益。

Qwen3.5ZPPOKnowledge DistillationReinforcement LearningVLMPrompt

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

區域近端策略最佳化：教師入提示而非入梯度

來源 · 1 篇報導

相關動態 · 研究