Text-Vision Co-Instructed Image Editing
為何重要
透過統合語意與空間理解,大幅提升 AI 影像編輯的精確度與結構完整性。
研究者提出「Text-Vision Co-Instructed Image Editing」框架(TV-Edit),旨在結合文字指令的語意表達與視覺提示(如拖曳、點選)的精確空間控制。該方法利用從動態影片建構的 23K 樣本配對資料集,建立 TV-Edit-Bench 基準測試,證實其在多種編輯後備網路上能產生更精確且語意忠實的結果,優於現有的純文字或純視覺方法。