重新思考或延長思考？推理的預算感知選擇性驗證

研究 1 個來源 · 2 天前

為何重要

這項研究為 LLM 的推理成本最佳化提供了具體指引，證明瞭將初步預算投入於延長初始求解，往往比事後進行選擇性驗證更有效率。對開發者而言，這意味著服務層的設計應優先考量初始思考長度的調整，而非盲目開啟冗長的驗證機制，從而大幅降低 OPEX。

這項研究提出名為 \sevra 的服務層控制器，旨在透過動態決定是否驗證凍結求解器（如 Qwen3-4B）的初步答案來最佳化計算資源分配。在 \mathfive 測試中，此方法達到 76.3% 的準確率且減少後續 tokens 26.8%；在 \gsm 數學資料集的凍結遷移實驗中，該策略僅驗證 3.0% 的範例，便能將準確率從 93.4% 提升至 94.5%，並減少驗證 tokens 91.2%。

sevraQwen3-4Benergeticsverificationbudget-aware

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

重新思考或延長思考？推理的預算感知選擇性驗證

來源 · 1 篇報導

相關動態 · 研究