顯露訊號、隱藏雜訊:用於畫素空間擴散的 Spectral Forcing
為何重要
此技術能讓模型專注於潛在訊號的重建,避免在包含背景雜訊的高頻區浪費運算資源,從而提升生成品質並最佳化訓練效率。
研究指出畫素空間擴散模型通常訓練於全頻帶雜訊影像,而實際有效的訊號分佈具有強烈的頻率依賴性。作者提出改進方法「Spectral Forcing」,透過引入一種無引數的時間條件 2D-DCT 低通運運算元,在進入潤飾器前顯式地將高頻雜訊區與低頻訊號區分開來。實驗結果顯示,此方法在 ImageNet-256 的 JiT-700M/32 以及 SenseNova-U1 等模型上,均顯著提升了 FID 與 Inception Score。