ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

MyPCBench:個人智慧電腦代理基準測試

研究 1 個來源 · 1 小時前
為何重要

此基準測試將 AI 評估焦點從單一的任務完成度,轉向複雜長程的「多應用程式切換與上下文管理」能力,這正是 Agent 產品從實驗室走向真實使用者的核心障礙。結果顯示 Claude Opus 4.6 目前仍具備領先優勢,但也驗證了所有模型在處理跨應用程式長軌跡任務時的疲態,意味著未來技術發展的重點將從網路模型的訓練邊界,轉向 Agent 框架的可靠性與協作效率。

現有的電腦代理評測多在非個人性的環境中進行,導致評估結果與真實部署需求存在落差,特別是在需要登入帳戶與保留歷史資料的網頁任務上。研究團隊推出 MyPCBench,透過模擬使用者整體數位生活的情境來測試代理人的個人助理能力。

  • 測試環境包含 17 個模擬真實網路應用程式的 Linux 桌面系統與完整堆疊。
  • 任務起源於 OpenClaw 社群的真實請求,共定義 184 個案例,並使用單一特定人物角色(來自 The Office 的 Michael Scott)進行測試。
  • 在該基準測試中,Claude Opus 4.6 表現最佳,完全解決了 55.4% 的任務,是唯一下載 50% 的模型。
MyPCBenchClaude Opus 4.6AgentComputer-UseBenchmarkOpenCLaw

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00