I Modelli Transformer Mostrano una Doppia Geometria nella Rappresentazione dei Concetti
Un recente studio pubblicato su arXiv indaga il ruolo del prodotto interno causale derivato dalla covarianza di unembedding nel migliorare il trasferimento di concetti tra lingue tramite architetture transformer. La ricerca ha analizzato 17 modelli in quattro diverse coppie linguistiche e ha scoperto che l'Allineamento Causale Sbiancato si comporta in modo simile alla regolarizzazione spettrale, raggiungendo un livello di significatività statistica di p = 0.95. In particolare, le differenze tra cinque tipi di modelli hanno mostrato una significativa anti-concentrazione (p < 10^{-33}), supportata dall'analisi delle caratteristiche SAE (p = 4.5 × 10^{-19}). Le osservazioni chiave includono pattern geometrici unici negli spazi di attivazione e interventi efficaci sui modelli Gemma e Llama, con valori d di Cohen fino a 1.8.
Fatti principali
- Lo studio testa il trasporto di concetti cross-linguistico utilizzando il prodotto interno causale di Park et al. 2024
- Testati 17 modelli e 4 coppie linguistiche
- L'Allineamento Causale Sbiancato è indistinguibile dalla regolarizzazione spettrale (p = 0.95)
- Anti-concentrazione osservata nei vettori differenza-delle-medie del flusso residuo (p < 10^{-33})
- Le caratteristiche SAE supportano l'anti-concentrazione (p = 4.5 × 10^{-19})
- Sonde lineari su Gemma e Llama confermano i risultati
- Doppia geometria: lo spazio di attivazione si anti-concentra, le righe di unembedding si concentrano (p < 10^{-4})
- Interventi causali split-injection supportano la base funzionale (d di Cohen fino a 1.8)
Entità
Istituzioni
- arXiv