PhoneHarness:應用於手機使用代理的混合動作框架與基準測試
為何重要
PhoneHarness 的提出證明瞭可靠的手機自動化不僅依賴視覺 GUI 控制,還必須整合 CLI 與工具,從而重新定義了行動代理的評估標準。
傳統手機代理評估多僅視為 GUI 控制器,研究團隊推出 PhoneHarness,這是一個結合 GUI、CLI 與主機端工具的混合動作框架,旨在研究手機代理在可驗證的移動工作流程中的執行能力。PhoneHarness Bench 重點評估代理能否產生可觀察的副作用,而非僅產生最終答案。測試顯示,PhoneHarness 在註釋資料集上的通過率高達 75.0%,較最佳對手高出 12.9 個百分點,證明可靠的手機自動化仰賴動作路由而非僅靠視覺控制。