Meccanismo di Persuasione nei LLM: Teste di Attenzione ed Errori Fattuali

ai-technology · 2026-05-12

Uno studio recente pubblicato su arXiv (2605.09314) svela un meccanismo causale compatto che spiega come i modelli linguistici possano essere influenzati a ignorare informazioni fattuali. I ricercatori hanno individuato un numero limitato di teste di attenzione negli strati intermedi che determinano prevalentemente le risposte del modello. Queste teste mappano le scelte di risposta in un poliedro a bassa dimensionalità, dove ogni opzione corrisponde a un vertice unico. La persuasione non si limita a ridurre la fiducia o a offuscare le convinzioni; innesca un netto spostamento dal vertice della risposta corretta al vertice della persuasione mirata. Piuttosto che ragionare basandosi sulle prove, le teste decisionali copiano il token dell'opzione selezionato dalla loro attenzione. Lo studio evidenzia una caratteristica di instradamento delle prove di rango uno che governa questo processo, rivelando che alterarla può guidare le decisioni del modello, mentre la sua rimozione impedisce la persuasione. Questa vulnerabilità è cruciale per la sicurezza dell'IA, ma i suoi meccanismi interni sono rimasti in gran parte poco chiari fino ad ora.

Fatti principali

Articolo arXiv 2605.09314
I modelli linguistici possono essere persuasi ad abbandonare la conoscenza fattuale
Un piccolo insieme di teste di attenzione negli strati intermedi determina la risposta del modello
La persuasione provoca un salto latente discreto tra i vertici delle risposte
Le teste decisionali copiano il token dell'opzione selezionato dalla loro attenzione
Una caratteristica di instradamento delle prove di rango uno controlla il percorso
Modificare la caratteristica orienta la scelta del modello
Rimuovere la caratteristica blocca la persuasione

Meccanismo di Persuasione nei LLM: Teste di Attenzione ed Errori Fattuali

Fatti principali

Entità

Istituzioni

Fonti