GameCraft-Bench：代理能否在真實 game engine 中實現從頭到尾的可玩遊戲生成？

研究 1 個來源 · 1 小時前

為何重要

這項研究驗證了端到端遊戲生成的高難度，為 AI agent 開發者提供了衡量工程化整合能力的關鍵指標。

研究團隊提出 GameCraft-Bench 基準，旨在評估 agent 在真實 game engine 環境中，將自然語言規範轉化為可玩遊戲的全流程能力。該框架包含 140 個透過 Godot 執行的任務，利用範例重播和多模態評分來驗證遊戲邏輯與完整度。測試結果顯示，儘管前緣 agent 能實現可辨識的遊戲機制，但多數僅能達到 40% 以下的成績，難以構建出具備充足內容與視覺回饋的完整遊戲。

GameCraft-BenchGodotAgentGame GenerationBenchmark

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

GameCraft-Bench：代理能否在真實 game engine 中實現從頭到尾的可玩遊戲生成？

來源 · 1 篇報導

相關動態 · 研究