從自未來中學習：面向 dLLMs 的 On-policy Self-distillation 框架 d-OPSD

研究 1 個來源 · 2 天前

為何重要

d-OPSD 為 Diffusion LLMs 的後訓練提供了極高的樣本效率解決方案。

現有的 On-policy Self-distillation (OPSD) 方法僅適用於自動迴歸模型，無法直接套用於必須任意順序生成的 Diffusion LLMs (dLLMs)。研究團隊開發了名為 d-OPSD 的首個 dLLMs 專用框架，透過將自生成的答案作為 suffix conditioning，並採用步驟級監督取代 token-level 監督來對齊迭代去噪過程。實驗顯示，d-OPSD 在多個推理 Benchmark 上勝過 RLVR 與 SFT 基準，所需的最佳化步數僅約為 RLVR 的 10%。

d-OPSDdLLMsSelf-distillationDiffusionPost-training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

相關動態 · 研究

16:11·數位雙生技術加速 GAA 邏輯製程良率最佳化傳統晶圓試驗在先進製程節點上極其昂貴且緩慢，數位雙生技術將開發從試錯式實驗轉向模擬最佳化，是晶圓廠與裝置商因應製程複雜度升高的關鍵策略轉變。對開發者而言，這意味著未來模型驗證與未被採用的失效分析將提前在虛擬環境完成；對投資人，這驗證了先進科技公司在軟體最佳化工具上的競爭力，是晶圓裝置廠商不可或缺的附加價值。Semiconductor Engineering · 23 小時前Lam ResearchGAADigital Twin研究 15:52·HumanScale：單眼人類視訊在具身預訓練中優於真機遙運算元據這項研究為解決具身模型的資料瓶頸提供了一個低成本且可行的路徑，將資料獲取的焦點從昂貴的硬體佈署轉向大規模的影片擷取。這可能讓更多新創團隊專注於演算法最佳化而非資料管道建立，然而卻可能抑製下游機械手臂等硬體資料採集業務的市場需求。Hugging Face Daily Papers · 4 分鐘前HumanScaleEgocentric Human VideoEmbodied AI研究 10:53·現況世界模型缺乏持有觀測的持久核心狀態這項研究揭露了當前多模態世界模型評估的盲點：業界過度獎勵影像畫質與操控性，卻忽略了物理邏輯的時間連續性。對開發者而言，這意味著具備 AGI 特性的系統架構必須強制加入解決「視線脫離後停止思考」問題的模組。對投資人來說，這區分了目前市場熱門的視覺生成技術與真正具備環境模擬能力的硬科技產品之間的鴻溝。Hugging Face Daily Papers · 5 小時前World ModelsWRBenchAGI研究 10:51·ENPIRE：真實世界中代理機器人政策自我提升框架這項突破將機器人開發正式納入自動化最佳化程式，縮減了人為幹預需求。對產業而言，它驗證了 Agent 生態系介入實體控制的可能性，為通用的「物理智慧」開發流程提供了可量化、可擴充套件的潛在路徑；開發者可關注其中開放的最佳化配方與基礎設施建構。Hugging Face Daily Papers · 5 小時前ENPIREAgentRobotics研究 09:30·重新思考或延長思考？推理的預算感知選擇性驗證這項研究為 LLM 的推理成本最佳化提供了具體指引，證明瞭將初步預算投入於延長初始求解，往往比事後進行選擇性驗證更有效率。對開發者而言，這意味著服務層的設計應優先考量初始思考長度的調整，而非盲目開啟冗長的驗證機制，從而大幅降低 OPEX。Hugging Face Daily Papers · 6 小時前sevraQwen3-4Benergetics研究