JoyAI-VL-Interaction:即時視覺語言互動智慧模型
為何重要
這是首個同步開放訓練配方、資料與完整部署系統的視覺驅動互動模型,對開發者建構即時 AI Agent 提供了極具參考價值的開源範本。
面對非順向的即時場景,研究團隊發布了 JoyAI-VL-Interaction,這是一個具備 8B 引數規模的視覺優先互動模型。該模型採自主決策機制,能即時判斷何時發聲、沉默或將艱難任務委派給後臺。團隊同時釋出了包含完整的 ASR/TTS 與記憶模組等可插拔元件的部署系統,評測人員在各類場景下優先選擇了該模型,而非 Doubao 和 Gemini 的即時助手。