ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

Tangram:用於高效能多輪 LLM 服務的非均勻 KV 快取壓縮框架

研究 1 個來源 · 2 天前
為何重要

Tangram 透過解決先前非均勻 KV 壓縮在伺服器環境中的頁面碎片與重規劃問題,將 LLM 服務的吞吐量提升了 2.6 倍,是實現高效能長上下文對話的關鍵技術。

針對多輪 LLM 服務中累積的 KV 快取導致記憶體瓶頸,Tangram 提出了非均勻 KV 壓縮的新解決方案。研究指出現有系統因頁面碎片化與 GPU 分片導致效率低落,而 Tangram 發現 Head 保留順序具有規律,可離線校正。透過實作預算保留、稀疏分頁與預先載入平衡,它在 vLLM 上實現了比全 KV 基準線更快的端對端吞吐量。

TangramKV cachevLLMLLM servingNon-Uniform KV compression

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00