Sumi:大規模從頭訓練的開源均勻擴散語言模型
為何重要
填補了大規模均勻擴散語言模型的空白,為未來架構探索建立重要的參考基準。
為解決大規模均勻擴散語言模型(UDLM)的空白,研究團隊公開了在 1.5T tokens 上從頭訓練的 7B 開源模型 Sumi。該模型在知識、推理與編碼基準上具備競爭力,並完整釋出了模型權重、檢查點與教學式的訓練資料混和配方,作為學術界研究的純淨參考點。
填補了大規模均勻擴散語言模型的空白,為未來架構探索建立重要的參考基準。
為解決大規模均勻擴散語言模型(UDLM)的空白,研究團隊公開了在 1.5T tokens 上從頭訓練的 7B 開源模型 Sumi。該模型在知識、推理與編碼基準上具備競爭力,並完整釋出了模型權重、檢查點與教學式的訓練資料混和配方,作為學術界研究的純淨參考點。