CEO-Bench:Agent 能否應對長期挑戰?
為何重要
這是新評測標準,用來衡量 Agent 在不確定世界中長期適應與持續進展所需的高階智慧。
研究人員推出 CEO-Bench,藉由模擬經營虛構公司 500 天,評估 Agent 在不確定性環境中的長期決策與執行能力。此測試要求 Agent 使用可程式化 Python 介面管理,結果僅 Claude Opus 4.8 和 GPT-5.5 能達成百萬美元起始資金門檻,顯示現有先進模型在複雜協調與獲利能力上仍面臨瓶頸。
這是新評測標準,用來衡量 Agent 在不確定世界中長期適應與持續進展所需的高階智慧。
研究人員推出 CEO-Bench,藉由模擬經營虛構公司 500 天,評估 Agent 在不確定性環境中的長期決策與執行能力。此測試要求 Agent 使用可程式化 Python 介面管理,結果僅 Claude Opus 4.8 和 GPT-5.5 能達成百萬美元起始資金門檻,顯示現有先進模型在複雜協調與獲利能力上仍面臨瓶頸。