Autoencoder Sparsi Rivelano Caratteristiche Semantiche che Guidano l'Allineamento Cervello-LLM
Un team di ricercatori del MIT e di Harvard ha utilizzato autoencoder sparsi (SAE) per analizzare GPT-2 XL e Llama-3.1-8B, scomponendoli in 16K-32K caratteristiche interpretabili per ogni strato. Hanno scoperto che le sole caratteristiche semantiche rappresentano il 94% delle prestazioni di codifica di picco (r=0,285) nel predire le risposte cerebrali umane al linguaggio. Una tassonomia validata da umani (κ ≥ 0,74) ha dimostrato che queste caratteristiche semantiche superano significativamente i basamenti abbinati per varianza (p<0,001, d=1,31). Inoltre, lo studio ha esplorato una nuova previsione della topografia corticale, rivelando che cinque sottocategorie semantiche provenienti da tre programmi di neuroscienze indipendenti corrispondono a specifiche regioni cerebrali, con un test formale di convergenza che conferma questo allineamento (Spearman ρ=0,72, p<0,001; ipergeometrico p=0,007). Questa ricerca collega l'interpretabilità meccanicistica con i modelli di codifica neurale, offrendo intuizioni sul perché gli strati intermedi dei LLM predicono più accuratamente l'attività cerebrale.
Fatti principali
- Autoencoder sparsi (SAE) scompongono GPT-2 XL e Llama-3.1-8B in 16K-32K caratteristiche interpretabili per strato.
- Le sole caratteristiche semantiche recuperano il 94% delle prestazioni di codifica di picco (r=0,285) nel predire le risposte cerebrali.
- La tassonomia validata da umani raggiunge κ ≥ 0,74.
- Le caratteristiche semantiche superano sostanzialmente i basamenti abbinati per varianza (p<0,001, d=1,31).
- Cinque sottocategorie semantiche derivate da tre programmi di neuroscienze indipendenti si mappano su distinte regioni cerebrali.
- Il test di convergenza conferma l'allineamento con Spearman ρ=0,72, p<0,001; ipergeometrico p=0,007.
- Lo studio collega l'interpretabilità meccanicistica con i modelli di codifica neurale.
- Fornisce una spiegazione meccanicistica del perché gli strati intermedi dei LLM predicono meglio l'attività cerebrale.
Entità
Istituzioni
- MIT
- Harvard