Track2View:透過成對 3D 點軌跡進行 4D 一致性攝影機控制視訊生成
為何重要
此研究證實了利用結構化的 3D 點軌跡可以極大提升動態場景視訊生成的時間一致性和攝影機控制準確性。
Track2View 利用成對的 3D 點軌跡對 video diffusion transformer 進行條件化,以確保源檢視與目標檢視之間具有明確且時間連續的空時對應關係,克服了傳統方法在動態場景中維持視覺一致性的難題。該技術採用無引數幾何運算將視覺上下文從源檢視直接轉移至目標檢視,並利用演算法自動提取一對一的軌跡對應關係。在涵蓋靜態與動態場景的 400 個視訊基準測試中,相較於領先的基線,Track2View 減少了 30-65% 的旋轉錯誤和 61-72% 的平移錯誤。