ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

不穩定特徵與可重現子空間:理解 Sparse Autoencoders 中的種子依賴性

研究 1 個來源 · 1 小時前
為何重要

推翻了將 SAE 中的不穩定特徵視為單純雜訊的既有直觀,揭示其實反映了模型內可重現的低維幾何結構,為提升模型解釋性提供關鍵方向。

稀疏自動編碼器(SAEs)在解讀神經網路表示時,其實用性受制於特徵在訓練過程中的可重現性。研究透過種子依賴性分析發現,穩定的特徵承載了主要訊號,而不穩定的特徵雖無法單獨辨識,卻聚整合可重現的低位秩子空間。更重要的是,研究證實這些不穩定特徵反映了可恢復的結構,並建議透過彙整跨種子的特徵來提升模型的解釋穩定性。

Sparse AutoencodersSAEInterpretabilityNeural RepresentationsSeed Dependence

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00