I Crosscoders Tracciano l'Emergenza di Caratteristiche Linguistiche nel Pretraining degli LLM

ai-technology · 2026-05-01

I ricercatori hanno introdotto un metodo che utilizza crosscoders sparsi per tracciare quando e come i modelli linguistici di grandi dimensioni (LLM) acquisiscono specifiche abilità linguistiche durante il pretraining. Allineando le caratteristiche attraverso i checkpoint del modello, possono rilevare l'emergenza e il consolidamento di rappresentazioni come il rilevamento di nomi plurali irregolari. Una nuova metrica, gli Effetti Indiretti Relativi (RelIE), traccia l'importanza causale delle singole caratteristiche per le prestazioni del compito. Lo studio utilizza triplette di checkpoint open-source con significativi cambiamenti nelle prestazioni e nelle rappresentazioni. Questo approccio colma una lacuna nella comprensione dell'addestramento degli LLM a livello concettuale, poiché il benchmarking tradizionale non riesce a rivelare il processo di acquisizione. I risultati gettano luce sulle dinamiche della formazione di astrazioni linguistiche nelle reti neurali.

Fatti principali

I crosscoders sparsi vengono utilizzati per scoprire e allineare le caratteristiche attraverso i checkpoint degli LLM.
Il metodo traccia l'evoluzione delle caratteristiche linguistiche durante il pretraining.
Gli Effetti Indiretti Relativi (RelIE) sono una nuova metrica introdotta.
RelIE traccia le fasi di addestramento in cui le caratteristiche diventano causalmente importanti.
Lo studio utilizza triplette di checkpoint open-source con cambiamenti significativi.
L'attenzione è sul rilevamento dell'emergenza del rilevamento di nomi plurali irregolari.
I metodi di valutazione tradizionali come il benchmarking non riescono a rivelare il processo di acquisizione.
La ricerca colma una lacuna nella comprensione dell'apprendimento a livello concettuale negli LLM.

I Crosscoders Tracciano l'Emergenza di Caratteristiche Linguistiche nel Pretraining degli LLM

Fatti principali

Entità

Istituzioni

Fonti