MaineCoon：追求即時音訊視覺社交世界模型

模型 1 個來源 · 5 小時前

為何重要

此模型突破了長時間軌跡生成與低延遲互動的技術障礙，對於開發者來說，提供了一種構建具備即時反應能力 AI 面板或角色的新架構思路。雖然目前僅停留在研究原型階段，但它明確指出下一代社交平臺的設計願景，將技術重心從單純的文本或影像生成轉向更真實的數位社交認知模擬。

現有的世界模型多著重於物理模擬或遊戲探索，在人類中心的互動動態上仍有落差；本研究著眼於社交世界模型，提出 MaineCoon 作為實現此目標的原型。MaineCoon 是目前首款專為社互動動應用最佳化的即時音訊視覺自回歸模型，具備 22億引數，能在單一 GPU 上達到最高 47.5 FPS 的幀率並支援亞秒互動。為了確保訓練效率與穩定性，開發團隊引入了自我重取樣、跨模態表示對齊、領域感知偏好最佳化以及增強型線上策略提取（ROPD）等技術。

MaineCoonaudio-visualsocial world modelautoregressivereal-time22B

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

MaineCoon：追求即時音訊視覺社交世界模型

來源 · 1 篇報導

相關動態 · 模型