Polimorfismo nei modelli Transformer rivelato e risolto tramite rotazione di Procruste
Un recente studio pubblicato su arXiv (2605.24577) dimostra che transformer addestrati indipendentemente possono svolgere la stessa funzione anche quando le loro basi del flusso residuo sono soggette a una rotazione uniforme casuale su SO(d_model), un concetto chiamato polimorfismo. Ciò indica che, sebbene i modelli eseguano le stesse funzioni, le loro coordinate interne non sono comprensibili tra loro. Il problema può essere risolto con una singola moltiplicazione di matrice per ogni coppia di modelli: un adattamento ortogonale di Procruste applicato a un batch di attivazioni consente di trasferire dizionari di caratteristiche di autoencoder sparsi e vettori di steering tra modelli senza necessità di riaddestramento. Sebbene la metrica standard di universalità SAE mostri una similarità coseno del 98% nell'abbinamento delle colonne del decodificatore tra semi diversi, un SAE addestrato su un seme non riesce a ricostruire accuratamente le attivazioni di un altro seme, indicando che mentre le colonne del decodificatore si allineano, l'encoder opera da una prospettiva ruotata. È necessaria una singola rotazione di Procruste R per ripristinare la ricostruzione.
Fatti principali
- Transformer addestrati indipendentemente calcolano la stessa funzione in basi del flusso residuo che differiscono per una rotazione uniforme casuale su SO(d_model).
- Fenomeno chiamato polimorfismo: stessa funzione, coordinate interne reciprocamente incomprensibili.
- Una moltiplicazione di matrice per coppia di modelli lo rimuove: adattamento ortogonale di Procruste su un singolo batch di attivazioni.
- Trasferisce dizionari di caratteristiche di autoencoder sparsi e vettori di steering tra modelli addestrati indipendentemente senza riaddestramento.
- Fenomeno invisibile alla metrica standard di universalità SAE.
- Similarità coseno delle colonne del decodificatore corrisponde tra semi al 98%.
- SAE addestrato su un seme ricostruisce le attivazioni di un altro seme con varianza spiegata negativa.
- Una singola rotazione di Procruste R ripristina la ricostruzione.
Entità
Istituzioni
- arXiv