分散式推論架構下的博弈論與無政府定價分析
為何重要
這項研究透過嚴謹的博弈論模型與實際系統驗證,揭示了分散式推論從資源競爭到負載平衡的轉換機制,為 optimal inference serving 和 infra developer 提供了重要的理論評量與排程策略指引。
本研究首次採用博弈論分析將 prefill 和 decode 階段分離至不同 GPU 池的分散式推論架構,發現 GPU 飽和會導致自我行為引致外部性,使 PoA 上升。研究設計的自適應控制器能在 NVIDIA B200 叢集上即時偵測飽和狀態並調整路由,在 70B 模型上將 PoA 減少 3.1 倍,並大幅降低 TTFT P99。