Sumi：大規模從頭訓練的開源均勻擴散語言模型

研究 1 個來源 · 2 天前

填補了大規模均勻擴散語言模型的空白，為未來架構探索建立重要的參考基準。

為解決大規模均勻擴散語言模型（UDLM）的空白，研究團隊公開了在 1.5T tokens 上從頭訓練的 7B 開源模型 Sumi。該模型在知識、推理與編碼基準上具備競爭力，並完整釋出了模型權重、檢查點與教學式的訓練資料混和配方，作為學術界研究的純淨參考點。