REVES:重視與驗證——增強的測試時間擴充套件訓練
為何重要
REVES 開闢了一條不以堆疊算力為核心的推理最佳化路徑,轉而強調「身為與驗證」的集中式策略。對於技術決策者,這意味著大型模型也能透過不同話術技巧顯著提升程式碼與數學表現;對投資人,這類能減少計算代價的演算法創新,是評估未來商業模式是否能擺脫算力成本倒掛風險的重要指標。
訓練時的標準最佳化目標往往與多步驟的推理動態不匹配,導致模型無法利用推理過程中的高品質錯誤。研究提出 REVES 框架,將成功還原軌跡中的「近擊誤差」轉化為改進與驗證提示,進行離線增強訓練。實驗結果顯示,在 LiveCodeBench 上相較於 RL 基準提升了 6.5 分,相較於標準多輪訓練提升了 4.0 分。