Tangram:用於高效能多輪 LLM 服務的非均勻 KV 快取壓縮框架
為何重要
Tangram 透過解決先前非均勻 KV 壓縮在伺服器環境中的頁面碎片與重規劃問題,將 LLM 服務的吞吐量提升了 2.6 倍,是實現高效能長上下文對話的關鍵技術。
針對多輪 LLM 服務中累積的 KV 快取導致記憶體瓶頸,Tangram 提出了非均勻 KV 壓縮的新解決方案。研究指出現有系統因頁面碎片化與 GPU 分片導致效率低落,而 Tangram 發現 Head 保留順序具有規律,可離線校正。透過實作預算保留、稀疏分頁與預先載入平衡,它在 vLLM 上實現了比全 KV 基準線更快的端對端吞吐量。