TokenPilot:針對 LLM Agent 的快取高效背景管理
為何重要
解決了上下文長度與快取有效性之間的艱難權衡,大幅降低 LLM Agent 長期運作的推算成本。
面對長時程會話帶來的推論成本挑戰,現有文本剪枝或動態記憶逐出方法易引發字首不匹配與快取失效問題。本研究提出 TokenPilot 框架,透過全域的 Ingestion-Aware Compaction 與區域性的 Lifecycle-Aware Eviction,在穩定提示字首的同時監控背景區塊的剩餘效用。實驗在 PinchBench 和 Claw-Eval 上進行,結果顯示 TokenPilot 在隔離與連續模式下,皆能將成本較前系統降低 61% 至 87%,該框架已整合於 LightMem2 作案庫中。