超越純量距離:利用凍結多模態大語言模型產生語義屬性梯度以提升視覺嵌入
為何重要
透過引入凍結 MLLM 的語義感知能力轉化為編碼器訓練訊號,實現了在不增加額外推算成本的情況下,顯著提升影像檢索任務的精確度與細緻度。
傳統視覺編碼器訓練僅依賴標籤監督無法捕捉細微差異,SAGA 框架透過 Group Relative Policy Optimization (GRPO) 獎勵凍結的 MLLM 解析成對影像的語義屬性,進而產生具體的梯度訓練訊號。在推理階段僅使用 MLLM 進行一次性檢查且無額外成本的前提下,該方法成功將 CUB-200-2011 等資料集的 Recall@1 提升了 3 到 6 個百分點。