從自未來中學習:面向 dLLMs 的 On-policy Self-distillation 框架 d-OPSD
為何重要
d-OPSD 為 Diffusion LLMs 的後訓練提供了極高的樣本效率解決方案。
現有的 On-policy Self-distillation (OPSD) 方法僅適用於自動迴歸模型,無法直接套用於必須任意順序生成的 Diffusion LLMs (dLLMs)。研究團隊開發了名為 d-OPSD 的首個 dLLMs 專用框架,透過將自生成的答案作為 suffix conditioning,並採用步驟級監督取代 token-level 監督來對齊迭代去噪過程。實驗顯示,d-OPSD 在多個推理 Benchmark 上勝過 RLVR 與 SFT 基準,所需的最佳化步數僅約為 RLVR 的 10%。