Il ragionamento interno dei LLM come polilogo di vettori persona

other · 2026-05-12

Un recente articolo su arXiv (2605.09159) suggerisce che i grandi modelli linguistici (LLM) rappresentano caratteristiche comportamentali attraverso "vettori persona" nello spazio di attivazione. Questi vettori possono essere tracciati in tempo reale durante la generazione come un "polilogo", che riflette una serie di allineamenti tra questi vettori e gli stati nascosti. Test su quattro modelli con pesi aperti indicano che le caratteristiche del polilogo possono prevedere le prestazioni su MMLU-Pro in modo paragonabile alle baseline a bassa dimensionalità, pur rimanendo interpretabili. Inoltre, questo metodo propone specifici obiettivi di steering per regolare le direzioni latenti in varie fasi della risposta, implementati come un intervento condizionato al paragrafo che migliora l'accuratezza.

Fatti principali

Articolo arXiv 2605.09159
I LLM codificano tratti comportamentali come vettori persona
I vettori persona sono direzioni lineari nello spazio di attivazione
Il polilogo è la serie temporale degli allineamenti tra vettori persona e attivazioni nascoste
Esperimenti su quattro modelli con pesi aperti
Le caratteristiche del polilogo predicono la correttezza su MMLU-Pro
Competitivo con le baseline di attivazione a bassa dimensionalità
L'intervento condizionato al paragrafo migliora l'accuratezza

Il ragionamento interno dei LLM come polilogo di vettori persona

Fatti principali

Entità

Istituzioni

Fonti