重新思考或延長思考?推理的預算感知選擇性驗證
為何重要
這項研究為 LLM 的推理成本最佳化提供了具體指引,證明瞭將初步預算投入於延長初始求解,往往比事後進行選擇性驗證更有效率。對開發者而言,這意味著服務層的設計應優先考量初始思考長度的調整,而非盲目開啟冗長的驗證機制,從而大幅降低 OPEX。
這項研究提出名為 \sevra 的服務層控制器,旨在透過動態決定是否驗證凍結求解器(如 Qwen3-4B)的初步答案來最佳化計算資源分配。在 \mathfive 測試中,此方法達到 76.3% 的準確率且減少後續 tokens 26.8%;在 \gsm 數學資料集的凍結遷移實驗中,該策略僅驗證 3.0% 的範例,便能將準確率從 93.4% 提升至 94.5%,並減少驗證 tokens 91.2%。