Polimorfismo nei modelli Transformer rivelato e risolto tramite rotazione di Procruste

ai-technology · 2026-05-26

Un recente studio pubblicato su arXiv (2605.24577) dimostra che transformer addestrati indipendentemente possono svolgere la stessa funzione anche quando le loro basi del flusso residuo sono soggette a una rotazione uniforme casuale su SO(d_model), un concetto chiamato polimorfismo. Ciò indica che, sebbene i modelli eseguano le stesse funzioni, le loro coordinate interne non sono comprensibili tra loro. Il problema può essere risolto con una singola moltiplicazione di matrice per ogni coppia di modelli: un adattamento ortogonale di Procruste applicato a un batch di attivazioni consente di trasferire dizionari di caratteristiche di autoencoder sparsi e vettori di steering tra modelli senza necessità di riaddestramento. Sebbene la metrica standard di universalità SAE mostri una similarità coseno del 98% nell'abbinamento delle colonne del decodificatore tra semi diversi, un SAE addestrato su un seme non riesce a ricostruire accuratamente le attivazioni di un altro seme, indicando che mentre le colonne del decodificatore si allineano, l'encoder opera da una prospettiva ruotata. È necessaria una singola rotazione di Procruste R per ripristinare la ricostruzione.

Fatti principali

Transformer addestrati indipendentemente calcolano la stessa funzione in basi del flusso residuo che differiscono per una rotazione uniforme casuale su SO(d_model).
Fenomeno chiamato polimorfismo: stessa funzione, coordinate interne reciprocamente incomprensibili.
Una moltiplicazione di matrice per coppia di modelli lo rimuove: adattamento ortogonale di Procruste su un singolo batch di attivazioni.
Trasferisce dizionari di caratteristiche di autoencoder sparsi e vettori di steering tra modelli addestrati indipendentemente senza riaddestramento.
Fenomeno invisibile alla metrica standard di universalità SAE.
Similarità coseno delle colonne del decodificatore corrisponde tra semi al 98%.
SAE addestrato su un seme ricostruisce le attivazioni di un altro seme con varianza spiegata negativa.
Una singola rotazione di Procruste R ripristina la ricostruzione.

Polimorfismo nei modelli Transformer rivelato e risolto tramite rotazione di Procruste

Fatti principali

Entità

Istituzioni

Fonti