iOSWorld：專為個人智慧手機代理程式打造的評測基準

工具 1 個來源 · 1 小時前

為何重要

此基準證實了「計算機使用」模型若要具備真實生產力，必須從純粹的影像輸入（CV）轉向獲取作業系統的結構性資料（如 Accessibility Tree），這標誌著 Agent 技術正從旁觀者演進為需要深度整合的參與者。對開發者而言，這提供了衡量代理程式「記憶」與「行動」邊界的新標尺；對產業觀察者來說，它揭示了未來 Agent 導向應用若非佔用過高算力或資源，將高度依賴低層棧的資料存取最佳化。

為了評估裝置端具備使用者身分、歷史與偏好的個人化手機代理程式，研究團隊推出首款結合持久身分的互動式 iOS 模擬器基準測試 iOSWorld，解決現有 benchmark 僅限離線沙盒的缺陷。該架構內建 26 個連結交易、訊息與旅遊等資料的全新 app，包含 133 個從單軟體到多軟體協作的三級難度任務。評測結果顯示，在消除視覺盲點的「特權視覺+XML」設定下，前線模型整體效能提升高達 26 個百分點，但在多 app 連結任務上表現欠佳（僅 37%）。

iOSWorldiOS SimulatorComputer-use ModelsAgentBenchmarkOpen-source

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

iOSWorld：專為個人智慧手機代理程式打造的評測基準

來源 · 1 篇報導

相關動態 · 工具