La ricerca rivela modelli di auto-lettura nelle tracce di ragionamento quantitativo dei LLM
Uno studio recente indaga come i grandi modelli linguistici analizzino i propri processi di ragionamento prima di formulare risposte, in particolare nei compiti di ragionamento quantitativo. I ricercatori hanno esaminato le dinamiche di attenzione tra i token di risposta e le tracce di ragionamento, scoprendo un modello unico di auto-lettura collegato alle risposte corrette. Questo modello è caratterizzato da un movimento in avanti del focus lungo la traccia di ragionamento e da un'attenzione sostenuta sugli ancoraggi semantici significativi. Al contrario, le risposte errate mostrano un'attenzione dispersa e incoerente. Il team considera questo un segno di fiducia interna durante l'interpretazione della risposta, dove i modelli aderiscono a percorsi di soluzione plausibili e incorporano prove cruciali. Introducono un nuovo metodo senza addestramento chiamato Self-Reading Quality (SRQ), che combina metriche geometriche e semantiche. Questa ricerca, identificata come arXiv 2604.19149v1, colma una lacuna critica nella comprensione di come i token di risposta interagiscano con il ragionamento per produrre risultati affidabili, estendendosi oltre i precedenti studi sullo steering delle attivazioni che si concentravano principalmente sulle tracce di ragionamento stesse.
Fatti principali
- La ricerca analizza come i LLM leggono le proprie tracce di ragionamento prima di rispondere
- L'attenzione è focalizzata sui compiti di ragionamento quantitativo
- Le soluzioni corrette mostrano una deriva in avanti del focus di lettura lungo le tracce di ragionamento
- Le soluzioni corrette mantengono la concentrazione sugli ancoraggi semantici chiave
- Le soluzioni errate mostrano modelli di attenzione diffusi e irregolari
- I modelli sono interpretati come certezza interna durante la decodifica delle risposte
- Propone i punteggi Self-Reading Quality (SRQ) per lo steering senza addestramento
- L'articolo è stato annunciato su arXiv con identificatore 2604.19149v1
Entità
Istituzioni
- arXiv