MyPCBench：個人智慧電腦代理基準測試

研究 1 個來源 · 1 小時前

為何重要

此基準測試將 AI 評估焦點從單一的任務完成度，轉向複雜長程的「多應用程式切換與上下文管理」能力，這正是 Agent 產品從實驗室走向真實使用者的核心障礙。結果顯示 Claude Opus 4.6 目前仍具備領先優勢，但也驗證了所有模型在處理跨應用程式長軌跡任務時的疲態，意味著未來技術發展的重點將從網路模型的訓練邊界，轉向 Agent 框架的可靠性與協作效率。

現有的電腦代理評測多在非個人性的環境中進行，導致評估結果與真實部署需求存在落差，特別是在需要登入帳戶與保留歷史資料的網頁任務上。研究團隊推出 MyPCBench，透過模擬使用者整體數位生活的情境來測試代理人的個人助理能力。

測試環境包含 17 個模擬真實網路應用程式的 Linux 桌面系統與完整堆疊。
任務起源於 OpenClaw 社群的真實請求，共定義 184 個案例，並使用單一特定人物角色（來自 The Office 的 Michael Scott）進行測試。
在該基準測試中，Claude Opus 4.6 表現最佳，完全解決了 55.4% 的任務，是唯一下載 50% 的模型。

MyPCBenchClaude Opus 4.6AgentComputer-UseBenchmarkOpenCLaw

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

MyPCBench：個人智慧電腦代理基準測試

來源 · 1 篇報導

相關動態 · 研究