NVIDIA 揭示 VLA 與 WAM 架構推動機器人再進化
為何重要
為具備視覺-語言-行動能力的機器人識別與世界模型的發展奠定架構基礎。
原文定義 VLA 為基於預訓練 VLM backbone 的 Vision-Language-Action model,透過調適從視覺觀察與語言指令生成行為;亦介紹 WAM World-Action Model 係以預訓練的世界模型或影片為起點。文章提及 Pi-0 與 GR00T N1,強調大規模 VLM 預訓練是此類模型的核心。
為具備視覺-語言-行動能力的機器人識別與世界模型的發展奠定架構基礎。
原文定義 VLA 為基於預訓練 VLM backbone 的 Vision-Language-Action model,透過調適從視覺觀察與語言指令生成行為;亦介紹 WAM World-Action Model 係以預訓練的世界模型或影片為起點。文章提及 Pi-0 與 GR00T N1,強調大規模 VLM 預訓練是此類模型的核心。