ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

ExpRL:探索性 RL 與 LLM 中期訓練

研究 1 個來源 · 1 小時前
為何重要

ExpRL 提供了一種自動化的 LLM 訓練管道,透過密集的過程獎勵增強模型在複合推理任務上的表現。

為瞭解決手動標註訓練內容的限制,研究提出了一種稱為 ExpRL 的探索性 RL 工具。該方法利用大規模人類 QA 資料庫建立獎勵腳手架,並透過 LLM 判斷器評估推理軌跡以提供密集獎勵。在數學推理任務上,ExpRL 的效能優於 SFT、sparse-reward GRPO 和自訓練,能提供更好的 RL 初始化。

ExpRLReinforcement LearningLLMReasoningMid-training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00