ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

從自未來中學習:面向 dLLMs 的 On-policy Self-distillation 框架 d-OPSD

研究 1 個來源 · 2 天前
為何重要

d-OPSD 為 Diffusion LLMs 的後訓練提供了極高的樣本效率解決方案。

現有的 On-policy Self-distillation (OPSD) 方法僅適用於自動迴歸模型,無法直接套用於必須任意順序生成的 Diffusion LLMs (dLLMs)。研究團隊開發了名為 d-OPSD 的首個 dLLMs 專用框架,透過將自生成的答案作為 suffix conditioning,並採用步驟級監督取代 token-level 監督來對齊迭代去噪過程。實驗顯示,d-OPSD 在多個推理 Benchmark 上勝過 RLVR 與 SFT 基準,所需的最佳化步數僅約為 RLVR 的 10%。

d-OPSDdLLMsSelf-distillationDiffusionPost-training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00