JoyAI-VL-Interaction：即時視覺語言互動智慧模型

工具 1 個來源 · 2 天前

為何重要

這是首個同步開放訓練配方、資料與完整部署系統的視覺驅動互動模型，對開發者建構即時 AI Agent 提供了極具參考價值的開源範本。

面對非順向的即時場景，研究團隊發布了 JoyAI-VL-Interaction，這是一個具備 8B 引數規模的視覺優先互動模型。該模型採自主決策機制，能即時判斷何時發聲、沉默或將艱難任務委派給後臺。團隊同時釋出了包含完整的 ASR/TTS 與記憶模組等可插拔元件的部署系統，評測人員在各類場景下優先選擇了該模型，而非 Doubao 和 Gemini 的即時助手。

JoyAI-VL-InteractionHugging FaceReal-time InteractionVision-LanguageOpen Source

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

JoyAI-VL-Interaction：即時視覺語言互動智慧模型

來源 · 1 篇報導

相關動態 · 工具