ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

超越純量距離:利用凍結多模態大語言模型產生語義屬性梯度以提升視覺嵌入

研究 1 個來源 · 1 小時前
為何重要

透過引入凍結 MLLM 的語義感知能力轉化為編碼器訓練訊號,實現了在不增加額外推算成本的情況下,顯著提升影像檢索任務的精確度與細緻度。

傳統視覺編碼器訓練僅依賴標籤監督無法捕捉細微差異,SAGA 框架透過 Group Relative Policy Optimization (GRPO) 獎勵凍結的 MLLM 解析成對影像的語義屬性,進而產生具體的梯度訓練訊號。在推理階段僅使用 MLLM 進行一次性檢查且無額外成本的前提下,該方法成功將 CUB-200-2011 等資料集的 Recall@1 提升了 3 到 6 個百分點。

SAGAMLLMVisual EmbeddingsImage RetrievalGRPO

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00