網頁代理的錯誤歸因?引入語義狀態追蹤的過程層級評估基準 WebStep
為何重要
提供比單一成功率更細緻的過程視角,精準定位代理在網頁操作的具體弱點並提供可操作的改進建議。
現有網頁代理評估通常僅關注終端成功率,導致缺乏具體的改進指引。本篇研究提出 WebStep 基準,包含 1,800 個例項與自動化的語義狀態追蹤,讓代理能在具備確定性語義 MDP 的環境下執行。分析顯示,過程層級的評估能揭露結果資料隱藏的差異,例如在 Housing 網站上 OpenAI CUA 在 commit actions 上勝過 Qwen3.5,但在 filtering 上卻落後,精準點出了具體的改進領域。