I Transformer Mostrano un Ragionamento Deduttivo che Scala con la Profondità
Un nuovo studio su arXiv indaga come i modelli Transformer scalano il ragionamento deduttivo implicito su clausole di Horn. I ricercatori hanno scoperto che modelli sufficientemente profondi con maschere di prefisso bidirezionali possono avvicinarsi alle prestazioni del ragionamento esplicito a catena di pensiero (chain-of-thought) in varie topologie di grafo e larghezze di problema, sebbene la catena di pensiero rimanga necessaria per l'estrapolazione della profondità. Il lavoro decorrela sistematicamente la dimostrabilità da caratteristiche spurie e impone l'allineamento algoritmico.
Fatti principali
- Lo studio indaga le proprietà di scaling del ragionamento deduttivo implicito nei Transformer
- Si concentra sul ragionamento su clausole di Horn in Transformer con profondità limitata
- Decorrela sistematicamente la dimostrabilità da caratteristiche spurie
- Impone l'allineamento algoritmico
- Modelli sufficientemente profondi con maschera di prefisso bidirezionale si avvicinano alle prestazioni esplicite del CoT
- Il CoT rimane necessario per l'estrapolazione della profondità
- I risultati valgono per diverse topologie di grafo e larghezze di problema
- Pubblicato su arXiv sotto Computer Science > Artificial Intelligence
Entità
Istituzioni
- arXiv