Gli Autoencoder Sparsi Rivelano Cambiamenti Nascosti nelle Attivazioni durante il Fine-Tuning Supervisionato dei LLM
Un nuovo articolo su arXiv (2605.11426) indaga gli effetti del Fine-Tuning Supervisionato (SFT) sui modelli linguistici di grandi dimensioni. Mentre la similarità del coseno tra le attivazioni nascoste prima e dopo il SFT rimane alta, suggerendo un cambiamento geometrico minimo, gli autori utilizzano un Autoencoder Sparso (SAE) preaddestrato sul modello base per mostrare che i latenti sparsi sottostanti divergono significativamente. Introducono un nuovo pipeline che utilizza gli SAE come strumento diagnostico ad alta risoluzione, rivelando distribuzioni di caratteristiche semantiche specifiche per compito e per strato che vengono sistematicamente alterate durante il SFT. Identificano anche un profilo di aggiornamento per strato specifico per l'allineamento alla sicurezza. Lo studio fornisce una comprensione meccanicistica di come il SFT modifichi le rappresentazioni del modello oltre la similarità superficiale.
Fatti principali
- L'articolo arXiv 2605.11426 studia l'effetto del SFT sulle attivazioni dei LLM.
- La similarità del coseno delle attivazioni prima e dopo il SFT rimane alta.
- Un SAE preaddestrato sul modello base rivela divergenze nei latenti sparsi.
- Un nuovo pipeline utilizza gli SAE come strumento diagnostico per la divergenza rappresentazionale.
- Vengono scoperte modifiche delle caratteristiche semantiche specifiche per compito e per strato.
- Viene identificato un profilo di aggiornamento per strato specifico per l'allineamento alla sicurezza.
- Tutti i codici, gli script e i file di analisi sono associati all'articolo.
- L'articolo è stato annunciato su arXiv.
Entità
Istituzioni
- arXiv