分散式推論架構下的博弈論與無政府定價分析

研究 1 個來源 · 2 小時前

為何重要

這項研究透過嚴謹的博弈論模型與實際系統驗證，揭示了分散式推論從資源競爭到負載平衡的轉換機制，為 optimal inference serving 和 infra developer 提供了重要的理論評量與排程策略指引。

本研究首次採用博弈論分析將 prefill 和 decode 階段分離至不同 GPU 池的分散式推論架構，發現 GPU 飽和會導致自我行為引致外部性，使 PoA 上升。研究設計的自適應控制器能在 NVIDIA B200 叢集上即時偵測飽和狀態並調整路由，在 70B 模型上將 PoA 減少 3.1 倍，並大幅降低 TTFT P99。

NVIDIAGame-theoreticDisaggregated InferenceB20070B modelKV cache

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

分散式推論架構下的博弈論與無政府定價分析

來源 · 1 篇報導

相關動態 · 研究