ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

iOSWorld:專為個人智慧手機代理程式打造的評測基準

工具 1 個來源 · 1 小時前
為何重要

此基準證實了「計算機使用」模型若要具備真實生產力,必須從純粹的影像輸入(CV)轉向獲取作業系統的結構性資料(如 Accessibility Tree),這標誌著 Agent 技術正從旁觀者演進為需要深度整合的參與者。對開發者而言,這提供了衡量代理程式「記憶」與「行動」邊界的新標尺;對產業觀察者來說,它揭示了未來 Agent 導向應用若非佔用過高算力或資源,將高度依賴低層棧的資料存取最佳化。

為了評估裝置端具備使用者身分、歷史與偏好的個人化手機代理程式,研究團隊推出首款結合持久身分的互動式 iOS 模擬器基準測試 iOSWorld,解決現有 benchmark 僅限離線沙盒的缺陷。該架構內建 26 個連結交易、訊息與旅遊等資料的全新 app,包含 133 個從單軟體到多軟體協作的三級難度任務。評測結果顯示,在消除視覺盲點的「特權視覺+XML」設定下,前線模型整體效能提升高達 26 個百分點,但在多 app 連結任務上表現欠佳(僅 37%)。

iOSWorldiOS SimulatorComputer-use ModelsAgentBenchmarkOpen-source

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00