I Transformers Costruiscono Modelli del Mondo Interni Allineati con la Struttura dei Vincoli del Sudoku
Un nuovo studio da arXiv (2605.18847) rivela che i transformer addestrati su tracce di ragionamento sequenziale sviluppano modelli del mondo interni che rispecchiano l'algebra dei vincoli del dominio, non la sua presentazione superficiale. I ricercatori hanno addestrato un transformer a 8 strati su tracce di risoluzione del Sudoku e hanno eseguito un'analisi meccanicistica. Hanno scoperto che il modello organizza le informazioni attorno a righe, colonne e quadranti—le unità strutturali dei vincoli del Sudoku—piuttosto che rappresentare la griglia cella per cella. Inoltre, hanno identificato un 'circuito del singolo nudo': neuroni dedicati nell'ultimo strato MLP che rilevano quando solo una cifra rimane possibile per una cella e promuovono in modo affidabile quella cifra. Ciò dimostra che i modelli del mondo emergenti nei transformer sono plasmati dalla struttura sottostante del compito.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.18847
- Transformer a 8 strati addestrato su tracce di risoluzione del Sudoku
- Il modello costruisce un modello del mondo di sottostruttura organizzato per righe, colonne e quadranti
- Circuito del singolo nudo trovato nell'ultimo strato MLP
- Neuroni dedicati rilevano una singola cifra possibile per cella
- Geometria del modello del mondo plasmata dall'algebra dei vincoli
- Non dalla presentazione superficiale della griglia
- Eseguita analisi meccanicistica del calcolo interno
Entità
Istituzioni
- arXiv