ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

變寬度 Transformer

研究 1 個來源 · 1 小時前
為何重要

這項突破證實了非均勻的寬度分配策略比傳統方法更資源最佳化,為開發者在降低計算成本的同時追求更大規模模型提供了關鍵的技術方向。

為了打破 Transformer 架構在各層持續使用等寬度的慣例,研究提出了一種利用非等寬度容量分配的「times-shaped Transformer」架構;實驗結果顯示,此設計在維持語言建模損失的基礎上,將平均層寬度降低後,能減少 22% FLOPs 運算量以及 15% 的 KV cache 記憶體與 I/O 成本。

TransformersArchitectureMemory OptimizationFLOPs

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00