ViT-Up：視覺 Transformer 的保真度進階取樣

研究 1 個來源 · 1 小時前

為何重要

傳統進階取樣需額外依賴影像編碼器，技術堆疊較重且易受外幹擾，ViT-Up 強調「層級查詢」的內部風格，直接在 Backbone 特徵空間執行進階取樣，對於 Lower-level dense tasks（如分割、深度估計）的效率與保真度有實質助益。對開發者而言，這是一個在不改變權重精度的前提下最佳化輸出解析度的有效路徑。

Vision Transformers（ViTs）在視覺表徵學習上表現強大，但因全域性自注意力的二次成本限制，通常運作於較小的 patch-token 網格，這對語義分割等密集預測任務造成瓶頸。現有進階取樣方法依賴淺層編碼器，容易引發特徵洩漏與模糊。ViT-Up 透過從 ViT 中間隱藏狀態建構查詢，取代外部影像引導，實現任意連續座標的特徵預測並保持對齊。在 DINOv3-S+ 基準上，ViT-Up 在 Cityscapes 提升 +2.07 mIoU，SPair-71k 提升 +4.17 PCK@0.10；當使用大型 DINOv3-B backbone 時，提升幅度分別增長至 +3.36 mIoU 和 +8.09 PCK@0.10。

ViT-UpVision TransformerFeature UpsamplingDINOv3Semantic Segmentation

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

ViT-Up：視覺 Transformer 的保真度進階取樣

來源 · 1 篇報導

相關動態 · 研究