不穩定特徵與可重現子空間：理解 Sparse Autoencoders 中的種子依賴性

研究 1 個來源 · 1 小時前

為何重要

推翻了將 SAE 中的不穩定特徵視為單純雜訊的既有直觀，揭示其實反映了模型內可重現的低維幾何結構，為提升模型解釋性提供關鍵方向。

稀疏自動編碼器（SAEs）在解讀神經網路表示時，其實用性受制於特徵在訓練過程中的可重現性。研究透過種子依賴性分析發現，穩定的特徵承載了主要訊號，而不穩定的特徵雖無法單獨辨識，卻聚整合可重現的低位秩子空間。更重要的是，研究證實這些不穩定特徵反映了可恢復的結構，並建議透過彙整跨種子的特徵來提升模型的解釋穩定性。

Sparse AutoencodersSAEInterpretabilityNeural RepresentationsSeed Dependence

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

不穩定特徵與可重現子空間：理解 Sparse Autoencoders 中的種子依賴性

來源 · 1 篇報導

相關動態 · 研究