ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

網頁代理的錯誤歸因?引入語義狀態追蹤的過程層級評估基準 WebStep

工具 1 個來源 · 2 天前
為何重要

提供比單一成功率更細緻的過程視角,精準定位代理在網頁操作的具體弱點並提供可操作的改進建議。

現有網頁代理評估通常僅關注終端成功率,導致缺乏具體的改進指引。本篇研究提出 WebStep 基準,包含 1,800 個例項與自動化的語義狀態追蹤,讓代理能在具備確定性語義 MDP 的環境下執行。分析顯示,過程層級的評估能揭露結果資料隱藏的差異,例如在 Housing 網站上 OpenAI CUA 在 commit actions 上勝過 Qwen3.5,但在 filtering 上卻落後,精準點出了具體的改進領域。

Hugging FaceWebStepSemantic TrajectoryOpenAI CUAQwen3.5MDP

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00