MMDiff：擴充 Diffusion Transformers 以實現多模態生成

研究 1 個來源 · 1 天前

為何重要

此技術證明瞭生成模型具備強大的潛在感知能力，僅需微調輕量模組就能克服目前專屬感知模型的成本門檻。

研究團隊推出 MMDiff 框架，將預訓練的 Diffusion Transformer 轉化為能同時產生影像與各類高維感知模態的系統，僅透過輕量級解碼器頭即可運作。該方法利用多時步特徵融合策略，成功將其感知能力提升至接近甚至能與 DINOv3 等最先進編碼器競爭的水平。

MMDiffDiffusion TransformersMulti-ModalDINOv3Semantic SegmentationSynthetic Data

相關動態 · 研究