ExpRL：探索性 RL 與 LLM 中期訓練

研究 1 個來源 · 1 小時前

為何重要

ExpRL 提供了一種自動化的 LLM 訓練管道，透過密集的過程獎勵增強模型在複合推理任務上的表現。

為瞭解決手動標註訓練內容的限制，研究提出了一種稱為 ExpRL 的探索性 RL 工具。該方法利用大規模人類 QA 資料庫建立獎勵腳手架，並透過 LLM 判斷器評估推理軌跡以提供密集獎勵。在數學推理任務上，ExpRL 的效能優於 SFT、sparse-reward GRPO 和自訓練，能提供更好的 RL 初始化。

ExpRLReinforcement LearningLLMReasoningMid-training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

ExpRL：探索性 RL 與 LLM 中期訓練

來源 · 1 篇報導

相關動態 · 研究