判別器引導式 RL 修正流匹配,強化資料對齊與視覺真實感
為何重要
此研究揭示了生成模型訓練從「高成本人類偏好反饋」向「高效無監督資料對齊」轉型的技術可能性。利用預訓練模型的內在資訊來評估生成品質,能有效解決低階視覺偽影並提升語義一致性,這對尋求降低 GenAI 訓練成本與開發穩健生成器的開發者與基建供應商具有重要參考價值。
現有依賴人類偏好的強化學習(RL)在訓練流匹配模型時成本高昂,且無法解決模型在視覺真實感與語義結構上的結構性失配問題。研究提出判別器引導式 RL(DRL),透過在預訓練表徵空間評估資料與模型生成差異,作為獎勵訊號來對齊資料分佈。
- DRL 訓練同時衡量樣本差異的判別器,並將其對數比作為獎勵載入 KL 正則化 RL 架構中。
- 在 SiT 模型上,使用 DRL 可將 guidance-free FID 從 9.38 顯著降低至 2.62。
- 在 DINOv3 語義空間的 FD 指標上,結果從 88.2 改善至 19.3。