ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

全員本科生!何愷明新作 MiniT2I:文生圖僅需 258M 引數

模型 1 個來源 · 2 小時前
為何重要

這項工作是「回到資本主義」的延續,技術上證明當前主流文生圖模型的許多模組(如 VAE、AdaLN)可能存在過度設計,從而極大降低了訓練門檻。對產業而言,這暗示了在不仰賴數十億美元算力的情況下仍有戰略突破空間;對人才生態而言,展現了 MIT 等頂尖學府與奧賽金牌生結合所能產生的驚人攻擊力。

何愷明團隊近期釋出文生圖新架構 MM-JiT (MiniT2I),在完全拋棄潛空間與 AdaLN 等複雜模組的前提下,僅用不到 260M 引數即實現高質量影像生成。

  • 直接在畫素空間進行 Flow Matching 生成,移除 VAE 後計算開銷降低約 80%(單體僅需 265 GFLOPs)。
  • 訓練成本極其低廉,僅相當於一次標準 ImageNet 實驗(8 張 H100 GPUs、約 3 天)。
  • 在去除 AdaLN 複雜機制後,FID 達到 13.7,GenEval 達到 0.87,並在 PRISM-Bench 某些維度超越引數量更大的 FLUX.1-dev。
何愷明MiniT2IPixel Space DiffusionFlow MatchingIG@MITBack to Basics

來源 · 1 篇報導

首發 量子位 QbitAI qbitai.com 17:12