無需強假設:透過時間差異(TDV)進行視覺表示學習
為何重要
此突破挑戰了視覺模型對強假設的依賴,為未來隨資料量擴大而降低假設需求的方向奠定基礎。
現代視覺表示學習雖然多採用自我監督(Self-Supervised Learning),但仍依賴增強、遮罩或裁剪等強假設。為打破此瓶頸,研究提出 Temporal Difference in Vision (TDV) 範式,僅基於「過去導致未來」的因果假設,聯合訓練影像編碼器與運動編碼器來學習表示。結果顯示,即使在未使用顯著假設的情況下,TDV 在密集空間任務上的表現仍能匹敵現有先進技術。