Tracce di Peso Asimmetriche nell'Allineamento dei Transformer

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.16600) indica che il pre-addestramento con entropia incrociata e l'allineamento delle preferenze lasciano pattern geometrici distinti nei pesi dei transformer. I ricercatori propongono una sonda a frazione di sottospazio relativo per valutare come i cambiamenti nei pesi corrispondano ai sottospazi di attivazione del flusso residuo e al sottospazio di previsione derivato dall'unembedding. In particolare, gli aggiornamenti di allineamento sono concentrati nel percorso di lettura (W_Q, W_K), seguendo le direzioni principali delle attivazioni di input dell'attenzione, mentre rimangono quasi isotropici nel percorso di scrittura (W_O, W_2) in relazione al sottospazio di previsione. Questa asimmetria osservata deriva dall'accumulo di gradiente anisotropico, dove gli aggiornamenti a una matrice W sono composti da prodotti esterni δ_t a_t^T, riflettendo caratteristiche direzionali dal lato con covarianza concentrata. Nei transformer addestrati, l'attivazione di input a_t mostra una covarianza elevata, portando a un allineamento indipendente dall'obiettivo.

Fatti principali

Articolo arXiv:2605.16600
Il pre-addestramento con entropia incrociata e l'allineamento delle preferenze lasciano tracce geometriche distinte
Introdotta la sonda a frazione di sottospazio relativo
I delta di allineamento si concentrano nel percorso di lettura (W_Q, W_K)
Il percorso di scrittura (W_O, W_2) rimane quasi isotropico
L'accumulo di gradiente anisotropico spiega il pattern
Gli aggiornamenti sono somme di prodotti esterni δ_t a_t^T
La covarianza dell'attivazione di input è elevata nei transformer addestrati

Tracce di Peso Asimmetriche nell'Allineamento dei Transformer

Fatti principali

Entità

Istituzioni

Fonti