ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

區域近端策略最佳化:教師入提示而非入梯度

研究 1 個來源 · 1 小時前
為何重要

ZPPO 為小型模型的預訓練與訓練策略提供了新思維,透過將教師知識注入而非僅靠梯度更新,有效解決了強化學習中針對失敗 rollout 資料的利用困難問題。

傳統知識蒸餾與強化學習在小型模型上往往缺乏泛化能力,研究團隊因此提出「區域近端策略最佳化」(ZPPO)架構。ZPPO 不透過梯度傳遞教師能力,而是將教師響應編入 Prompt,利用二元與負面候選提示引入反覆迴圈與精煉;在 Qwen3.5 系列(0.8B-9B 學生、27B 教師)的 31-benchmark suite 測試中,其表現優於 off/on-policy distillation 及 GRPO,特別是在小型模型上帶來顯著效益。

Qwen3.5ZPPOKnowledge DistillationReinforcement LearningVLMPrompt

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00