ExpRL:探索性 RL 與 LLM 中期訓練
為何重要
ExpRL 提供了一種自動化的 LLM 訓練管道,透過密集的過程獎勵增強模型在複合推理任務上的表現。
為瞭解決手動標註訓練內容的限制,研究提出了一種稱為 ExpRL 的探索性 RL 工具。該方法利用大規模人類 QA 資料庫建立獎勵腳手架,並透過 LLM 判斷器評估推理軌跡以提供密集獎勵。在數學推理任務上,ExpRL 的效能優於 SFT、sparse-reward GRPO 和自訓練,能提供更好的 RL 初始化。
ExpRL 提供了一種自動化的 LLM 訓練管道,透過密集的過程獎勵增強模型在複合推理任務上的表現。
為瞭解決手動標註訓練內容的限制,研究提出了一種稱為 ExpRL 的探索性 RL 工具。該方法利用大規模人類 QA 資料庫建立獎勵腳手架,並透過 LLM 判斷器評估推理軌跡以提供密集獎勵。在數學推理任務上,ExpRL 的效能優於 SFT、sparse-reward GRPO 和自訓練,能提供更好的 RL 初始化。