Le storie di vita delle caratteristiche dei modelli linguistici sono importanti
Un recente preprint su arXiv (2605.18789) indica che le caratteristiche dei modelli linguistici hanno cicli di vita unici, caratterizzati da emergenza, persistenza ed eventuale estinzione durante l'addestramento. I ricercatori hanno esaminato Pythia-160M e -410M, scoprendo uno 'scaffale portante' composto da circa 50 caratteristiche sparse con durate di vita stabili che modellano la struttura rappresentazionale del modello. Questo scaffold si forma presto, con caratteristiche che appaiono, scompaiono e si riorganizzano circa 40 volte più velocemente nel primo 1% dell'addestramento rispetto alle fasi successive, ed è per lo più stabilito a quel punto. L'analisi di ablazione cross-layer rivela che questi portanti sopportano un carico significativamente maggiore rispetto a qualsiasi caratteristica non scaffold abbinata, una distinzione non evidente attraverso metodi di attivazione a singola caratteristica. Inoltre, l'identificazione dei futuri portanti può essere anticipata all'inizio dell'addestramento. Questa ricerca evidenzia l'importanza della storia di vita delle caratteristiche per comprendere il comportamento e l'interpretabilità del modello.
Fatti principali
- Il preprint arXiv 2605.18789 esamina le storie di vita delle caratteristiche nei modelli linguistici.
- Le caratteristiche nei modelli linguistici emergono, persistono e muoiono durante l'addestramento.
- Lo studio si concentra sui modelli Pythia-160M e Pythia-410M.
- È stato identificato uno 'scaffale portante' di circa 50 caratteristiche sparse con storie di vita stabili.
- Lo scaffold si assembla presto, con dinamiche delle caratteristiche circa 40 volte più veloci nel primo 1% dell'addestramento.
- L'ablazione congiunta cross-layer rivela che i portanti sopportano più carico rispetto alle caratteristiche non scaffold.
- La prevedibilità delle caratteristiche portanti è stabilita all'inizio dell'addestramento.
- La ricerca evidenzia l'importanza della storia di vita delle caratteristiche per l'interpretabilità.
Entità
Istituzioni
- arXiv