Text-Vision Co-Instructed Image Editing

研究 1 個來源 · 2 小時前

為何重要

透過統合語意與空間理解，大幅提升 AI 影像編輯的精確度與結構完整性。

研究者提出「Text-Vision Co-Instructed Image Editing」框架（TV-Edit），旨在結合文字指令的語意表達與視覺提示（如拖曳、點選）的精確空間控制。該方法利用從動態影片建構的 23K 樣本配對資料集，建立 TV-Edit-Bench 基準測試，證實其在多種編輯後備網路上能產生更精確且語意忠實的結果，優於現有的純文字或純視覺方法。

TV-EditImage EditingHugging FaceBenchmarksComputer VisionText-Vision Co-Instructed

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

Text-Vision Co-Instructed Image Editing

來源 · 1 篇報導

相關動態 · 研究