L'osservabilità dei transformer è determinata dall'architettura, non dalla scala
Un recente preprint su arXiv (2604.24801) esplora il monitoraggio dei segnali interni nei transformer autoregressivi ai fini del rilevamento degli errori. La ricerca caratterizza l'osservabilità come l'interpretazione lineare della qualità decisionale per token derivata da attivazioni di strati intermedi congelati, tenendo conto della confidenza max-softmax e della norma di attivazione. Questo aggiustamento è cruciale, poiché i controlli di confidenza rappresentano in media il 57,7% del segnale grezzo della sonda su 13 modelli di 6 famiglie. L'osservabilità non è universalmente applicabile ai transformer; negli esperimenti controllati di Pythia, ogni istanza testata con una configurazione a 24 strati e 16 teste mostra una correlazione parziale di circa 0,10 su una differenza di parametri di 3,5x e due varianti di Pile, mentre altre sei configurazioni mantengono un intervallo distinto tra 0,21 e 0,38. Il residuo controllato dall'output diminuisce anche in questi punti, e nessuna delle non linearità testate è in grado di recuperarlo.
Fatti principali
- L'osservabilità è definita come la leggibilità lineare della qualità decisionale per token da attivazioni di strati intermedi congelati
- I controlli di confidenza assorbono in media il 57,7% del segnale grezzo della sonda su 13 modelli di 6 famiglie
- La configurazione a 24 strati e 16 teste di Pythia collassa a rho_parziale ~0,10 su un gap di parametri di 3,5x e due varianti di Pile
- Altre sei configurazioni di Pythia occupano una banda sana da 0,21 a 0,38
- Il residuo controllato dall'output collassa negli stessi punti dell'osservabilità
- Nessuna delle non linearità testate recupera il segnale collassato
Entità
Istituzioni
- arXiv