超越當前觀察:在可控制非馬可夫遊戲中評估多模態大型語言模型
為何重要
針對過往 Benchmark 經常混淆隱狀態重建與其他技能的問題,RNG-Bench 提供了一個可精確衡量模型長期記憶保留與推理因果關係的嚴謹標準。
研究團隊發布了 RNG-Bench,專門針對多模態 LLMs 在非馬可夫環境中重建過去觀察並基於該資訊採取行為的能力進行評估。該 benchmark 包含 Matching Pairs 和 3D Maze 兩種遊戲,並引入了 Memory Gap 指標來區分記憶遺忘與決策不佳的影響。實驗顯示,即使配置到約 128K tokens 和 350 張圖片,前沿模型在該領域仍未飽和;同時研究亦證實,在最佳策略回放上微調 Qwen3.5-9B 可帶來顯著的效能提升。