從受訓者到訓練者:LLM 自動化 RL 環境設計框架
為何重要
這項研究將自動化從模型訓練後端延伸至 RL 環境調優,減少對直覺與人工經驗的依賴,實現從「受訓者」到「訓練者」的自動化迴圈。這也證明政策學習本身能最佳化模型的問題診斷能力,意味著未來訓練流程可能朝向更具「自我意識」的 MLOps 方向發展。
現有 RL 訓練依賴人工預測環境配置,研究提出「LLM as Environment Engineer」框架,讓模型本身根據失敗狀況提出改良方案。
- 框架核心:以
Qwen3-4B為 backbone,模型在此被賦予「環境工程師」角色,取代以往的直觀人工配置。 - 工具:引入
MAPF-FrozenLake測試環境,提供可針對多重維度的受控測試平臺,便於研究與基準測試。 - 業績:在基準測試中表現優於專有大模型(如
GPT、Gemini)及固定環境訓練基線。 - 發現:RL checkpoint 作為環境工程師優於原始 Base Model,顯示 Policy Learning 能提升模型的問題診斷能力。