ViT-Up:視覺 Transformer 的保真度進階取樣
為何重要
傳統進階取樣需額外依賴影像編碼器,技術堆疊較重且易受外幹擾,ViT-Up 強調「層級查詢」的內部風格,直接在 Backbone 特徵空間執行進階取樣,對於 Lower-level dense tasks(如分割、深度估計)的效率與保真度有實質助益。對開發者而言,這是一個在不改變權重精度的前提下最佳化輸出解析度的有效路徑。
Vision Transformers(ViTs)在視覺表徵學習上表現強大,但因全域性自注意力的二次成本限制,通常運作於較小的 patch-token 網格,這對語義分割等密集預測任務造成瓶頸。現有進階取樣方法依賴淺層編碼器,容易引發特徵洩漏與模糊。ViT-Up 透過從 ViT 中間隱藏狀態建構查詢,取代外部影像引導,實現任意連續座標的特徵預測並保持對齊。在 DINOv3-S+ 基準上,ViT-Up 在 Cityscapes 提升 +2.07 mIoU,SPair-71k 提升 +4.17 PCK@0.10;當使用大型 DINOv3-B backbone 時,提升幅度分別增長至 +3.36 mIoU 和 +8.09 PCK@0.10。