網頁代理的錯誤歸因？引入語義狀態追蹤的過程層級評估基準 WebStep

工具 1 個來源 · 2 天前

為何重要

提供比單一成功率更細緻的過程視角，精準定位代理在網頁操作的具體弱點並提供可操作的改進建議。

現有網頁代理評估通常僅關注終端成功率，導致缺乏具體的改進指引。本篇研究提出 WebStep 基準，包含 1,800 個例項與自動化的語義狀態追蹤，讓代理能在具備確定性語義 MDP 的環境下執行。分析顯示，過程層級的評估能揭露結果資料隱藏的差異，例如在 Housing 網站上 OpenAI CUA 在 commit actions 上勝過 Qwen3.5，但在 filtering 上卻落後，精準點出了具體的改進領域。

Hugging FaceWebStepSemantic TrajectoryOpenAI CUAQwen3.5MDP

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

網頁代理的錯誤歸因？引入語義狀態追蹤的過程層級評估基準 WebStep

來源 · 1 篇報導

相關動態 · 工具