ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

Text-Vision Co-Instructed Image Editing

研究 1 個來源 · 2 小時前
為何重要

透過統合語意與空間理解,大幅提升 AI 影像編輯的精確度與結構完整性。

研究者提出「Text-Vision Co-Instructed Image Editing」框架(TV-Edit),旨在結合文字指令的語意表達與視覺提示(如拖曳、點選)的精確空間控制。該方法利用從動態影片建構的 23K 樣本配對資料集,建立 TV-Edit-Bench 基準測試,證實其在多種編輯後備網路上能產生更精確且語意忠實的結果,優於現有的純文字或純視覺方法。

TV-EditImage EditingHugging FaceBenchmarksComputer VisionText-Vision Co-Instructed

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00