NVIDIA 揭示 VLA 與 WAM 架構推動機器人再進化

模型 2 個來源 · 1 天前

為何重要

為具備視覺-語言-行動能力的機器人識別與世界模型的發展奠定架構基礎。

原文定義 VLA 為基於預訓練 VLM backbone 的 Vision-Language-Action model，透過調適從視覺觀察與語言指令生成行為；亦介紹 WAM World-Action Model 係以預訓練的世界模型或影片為起點。文章提及 Pi-0 與 GR00T N1，強調大規模 VLM 預訓練是此類模型的核心。

NVIDIAVLAWAMVision-Language-ActionGR00T N1

來源 · 2 篇報導

首發 NVIDIA Technical Blog developer.nvidia.com 20:00 首發 NVIDIA Technical Blog developer.nvidia.com 20:00

NVIDIA 揭示 VLA 與 WAM 架構推動機器人再進化

來源 · 2 篇報導

相關動態 · 模型