Il ragionamento interno dei LLM come polilogo di vettori persona
Un recente articolo su arXiv (2605.09159) suggerisce che i grandi modelli linguistici (LLM) rappresentano caratteristiche comportamentali attraverso "vettori persona" nello spazio di attivazione. Questi vettori possono essere tracciati in tempo reale durante la generazione come un "polilogo", che riflette una serie di allineamenti tra questi vettori e gli stati nascosti. Test su quattro modelli con pesi aperti indicano che le caratteristiche del polilogo possono prevedere le prestazioni su MMLU-Pro in modo paragonabile alle baseline a bassa dimensionalità, pur rimanendo interpretabili. Inoltre, questo metodo propone specifici obiettivi di steering per regolare le direzioni latenti in varie fasi della risposta, implementati come un intervento condizionato al paragrafo che migliora l'accuratezza.
Fatti principali
- Articolo arXiv 2605.09159
- I LLM codificano tratti comportamentali come vettori persona
- I vettori persona sono direzioni lineari nello spazio di attivazione
- Il polilogo è la serie temporale degli allineamenti tra vettori persona e attivazioni nascoste
- Esperimenti su quattro modelli con pesi aperti
- Le caratteristiche del polilogo predicono la correttezza su MMLU-Pro
- Competitivo con le baseline di attivazione a bassa dimensionalità
- L'intervento condizionato al paragrafo migliora l'accuratezza
Entità
Istituzioni
- arXiv