ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

VibeThinker-3B:探索小型語言模型中可驗證推理的前沿

模型 1 個來源 · 2 天前
為何重要

提出「引數壓縮覆蓋假說」,證明緊湊模型可透過精煉推理核心能力,達到與大型旗艦模型相當的前沿水準。

本研究報告介紹了 VibeThinker-3B,這是一個擁有 3 億引數的緊湊型稠密模型。研究團隊透過基於課程的監督微調、多領域強化學習及離線自我蒸餾等最佳化流程,將模型推向可驗證推理的前沿。實驗評測顯示,它在 AIME26 等嚴苛任務上表現出最前線級別的效能,並在 LiveCodeBench v6 與未見過的 LeetCode 比賽中展現強大的泛化能力,效能逼近甚至超越 DeepSeek V3.2、GLM-5 等大型旗艦模型。

VibeThinker-3BReasoningDeepSeekSLMSelf-distillationAIME26

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00