MMDiff:擴充 Diffusion Transformers 以實現多模態生成
為何重要
此技術證明瞭生成模型具備強大的潛在感知能力,僅需微調輕量模組就能克服目前專屬感知模型的成本門檻。
研究團隊推出 MMDiff 框架,將預訓練的 Diffusion Transformer 轉化為能同時產生影像與各類高維感知模態的系統,僅透過輕量級解碼器頭即可運作。該方法利用多時步特徵融合策略,成功將其感知能力提升至接近甚至能與 DINOv3 等最先進編碼器競爭的水平。
此技術證明瞭生成模型具備強大的潛在感知能力,僅需微調輕量模組就能克服目前專屬感知模型的成本門檻。
研究團隊推出 MMDiff 框架,將預訓練的 Diffusion Transformer 轉化為能同時產生影像與各類高維感知模態的系統,僅透過輕量級解碼器頭即可運作。該方法利用多時步特徵融合策略,成功將其感知能力提升至接近甚至能與 DINOv3 等最先進編碼器競爭的水平。