BadWorld:世界模型的對抗性攻擊
為何重要
揭示了 Visual world models 在適用於 safety-critical scenarios 時的潛在結構脆弱性與重大漏洞。
Visual world models (VWMs) 能僅憑單張圖片預測未來互動動作,但研究發現它們對對抗性擾動極度脆弱。研究團隊推出 BadWorld 框架,運用自監督速度攻擊和軌跡適應雙層最佳化,繞過缺乏 ground-truth 資料的限制,有效摧毀模型的預測能力。在連續與離散控制的測試中,這些圖片難以察覺的擾動會引發災難性退化,對 safety-critical systems 的部署構成重大風險。