超越純量距離：利用凍結多模態大語言模型產生語義屬性梯度以提升視覺嵌入

研究 1 個來源 · 1 小時前

為何重要

透過引入凍結 MLLM 的語義感知能力轉化為編碼器訓練訊號，實現了在不增加額外推算成本的情況下，顯著提升影像檢索任務的精確度與細緻度。

傳統視覺編碼器訓練僅依賴標籤監督無法捕捉細微差異，SAGA 框架透過 Group Relative Policy Optimization (GRPO) 獎勵凍結的 MLLM 解析成對影像的語義屬性，進而產生具體的梯度訓練訊號。在推理階段僅使用 MLLM 進行一次性檢查且無額外成本的前提下，該方法成功將 CUB-200-2011 等資料集的 Recall@1 提升了 3 到 6 個百分點。

SAGAMLLMVisual EmbeddingsImage RetrievalGRPO

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

超越純量距離：利用凍結多模態大語言模型產生語義屬性梯度以提升視覺嵌入

來源 · 1 篇報導

相關動態 · 研究