Metodologia in Cinque Fasi per l'Analisi delle Caratteristiche Causali nei Modelli Linguistici Transformer

ai-technology · 2026-05-23

Uno studio disponibile su arXiv (2605.22462) introduce un approccio in cinque fasi per analizzare le caratteristiche causali nei modelli linguistici transformer. Il processo include progettazione di sonde, estrazione di caratteristiche, validazione causale, test di robustezza e integrazione per il deployment. La metodologia viene applicata al modello GPT-2 small nel compito di Identificazione di Oggetto Indiretto (IOI), dove il patching dell'attivazione recupera con successo il circuito IOI standard, ottenendo un recupero di +1.02 con il layer-9 head 9. Un autoencoder sparso identifica caratteristiche selettive per nome, con dimensioni dell'effetto che vanno da 30 a 50 unità di attivazione. La validazione causale rivela che, sebbene queste caratteristiche siano parzialmente causali, l'ablazione di quindici di esse mantiene un'accuratezza del 98%. Due valutazioni ispirate a NLA indicano che queste caratteristiche spiegano solo il 31% della varianza di attivazione rispetto al 99,7% dell'SAE, e esiste una correlazione negativa tra il rapporto di selettività e la forza causale (r = -0,56). I test di robustezza su tre cambi di distribuzione mostrano che il circuito rimane efficace nonostante le variazioni.

Fatti principali

L'articolo arXiv 2605.22462 propone una metodologia in cinque fasi per l'analisi delle caratteristiche causali nei modelli linguistici transformer.
La metodologia include progettazione di sonde, estrazione di caratteristiche, validazione causale, test di robustezza e integrazione per il deployment.
Dimostrata su GPT-2 small che esegue il compito di Identificazione di Oggetto Indiretto (IOI).
Il patching dell'attivazione recupera il circuito IOI canonico con il layer-9 head 9 che dà un recupero di +1,02.
Un autoencoder sparso recupera caratteristiche selettive per nome con dimensioni dell'effetto di 30-50 unità di attivazione.
L'ablazione di quindici caratteristiche selettive lascia il modello accurato sul 98% dei prompt.
Quindici caratteristiche selettive spiegano solo il 31% della varianza di attivazione contro il 99,7% dell'SAE.
Il rapporto di selettività è anticorrelato con la forza causale (r = -0,56).

Metodologia in Cinque Fasi per l'Analisi delle Caratteristiche Causali nei Modelli Linguistici Transformer

Fatti principali

Entità

Istituzioni

Fonti