ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

CEO-Bench:Agent 能否應對長期挑戰?

研究 1 個來源 · 1 小時前
為何重要

這是新評測標準,用來衡量 Agent 在不確定世界中長期適應與持續進展所需的高階智慧。

研究人員推出 CEO-Bench,藉由模擬經營虛構公司 500 天,評估 Agent 在不確定性環境中的長期決策與執行能力。此測試要求 Agent 使用可程式化 Python 介面管理,結果僅 Claude Opus 4.8 和 GPT-5.5 能達成百萬美元起始資金門檻,顯示現有先進模型在複雜協調與獲利能力上仍面臨瓶頸。

CEO-BenchAgentStartup SimulationClaude OpusGPT-5.5Long-horizon planning

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00