MotionVLA:面向人體動作的視覺語言動作模型
為何重要
這項研究證實了頻率感知的雙流解耦架構能有效保留運動中的細微物理動態,為在低引數成本下生成更逼真的人體動作提供了關鍵技術路徑。
為瞭解決現有方法將姿態與速度訊號強制壓縮在同一空間,導致高頻動力訊號被忽略的問題,研究提出 MotionVLA。該模型引入 DSFT 雙流頻率 tokenizer,利用 Qwen3.5 backbone,將動作流拆分為 Base 與物理兩個 streams。實驗顯示,即便採用輕量級 2B backbone,該模型在 HumanML3D 上仍將 Diversity gap 減少超過 50%。