稀疏自編碼器操作可能失效：研究者發現模型可恢復被抑制的行為

研究 1 個來源 · 2 天前

這項研究揭露了模型安全防護的一大漏洞，強調僅透過「特徵級」的幹預無法完全確保行為的一致性，迫使產業界重新思考安全監控策略。

稀疏自編碼器雖常用於分析殘差流暢用項的特徵，但研究證明基於 SAE 的特徵幹預技術並不穩健。模型即使經過幹預，仍能透過殘差空間的最佳化重新恢復原本被抑制的行為。在涉及安全和偏轉的實驗中，這種復原機制甚至能達到 95.8% 的成功率。