Tangram：用於高效能多輪 LLM 服務的非均勻 KV 快取壓縮框架

研究 1 個來源 · 2 天前

為何重要

Tangram 透過解決先前非均勻 KV 壓縮在伺服器環境中的頁面碎片與重規劃問題，將 LLM 服務的吞吐量提升了 2.6 倍，是實現高效能長上下文對話的關鍵技術。

針對多輪 LLM 服務中累積的 KV 快取導致記憶體瓶頸，Tangram 提出了非均勻 KV 壓縮的新解決方案。研究指出現有系統因頁面碎片化與 GPU 分片導致效率低落，而 Tangram 發現 Head 保留順序具有規律，可離線校正。透過實作預算保留、稀疏分頁與預先載入平衡，它在 vLLM 上實現了比全 KV 基準線更快的端對端吞吐量。

TangramKV cachevLLMLLM servingNon-Uniform KV compression

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

Tangram：用於高效能多輪 LLM 服務的非均勻 KV 快取壓縮框架

來源 · 1 篇報導

相關動態 · 研究