ARTFEED — Contemporary Art Intelligence

Meccanismo di Persuasione nei LLM: Teste di Attenzione ed Errori Fattuali

ai-technology · 2026-05-12

Uno studio recente pubblicato su arXiv (2605.09314) svela un meccanismo causale compatto che spiega come i modelli linguistici possano essere influenzati a ignorare informazioni fattuali. I ricercatori hanno individuato un numero limitato di teste di attenzione negli strati intermedi che determinano prevalentemente le risposte del modello. Queste teste mappano le scelte di risposta in un poliedro a bassa dimensionalità, dove ogni opzione corrisponde a un vertice unico. La persuasione non si limita a ridurre la fiducia o a offuscare le convinzioni; innesca un netto spostamento dal vertice della risposta corretta al vertice della persuasione mirata. Piuttosto che ragionare basandosi sulle prove, le teste decisionali copiano il token dell'opzione selezionato dalla loro attenzione. Lo studio evidenzia una caratteristica di instradamento delle prove di rango uno che governa questo processo, rivelando che alterarla può guidare le decisioni del modello, mentre la sua rimozione impedisce la persuasione. Questa vulnerabilità è cruciale per la sicurezza dell'IA, ma i suoi meccanismi interni sono rimasti in gran parte poco chiari fino ad ora.

Fatti principali

  • Articolo arXiv 2605.09314
  • I modelli linguistici possono essere persuasi ad abbandonare la conoscenza fattuale
  • Un piccolo insieme di teste di attenzione negli strati intermedi determina la risposta del modello
  • La persuasione provoca un salto latente discreto tra i vertici delle risposte
  • Le teste decisionali copiano il token dell'opzione selezionato dalla loro attenzione
  • Una caratteristica di instradamento delle prove di rango uno controlla il percorso
  • Modificare la caratteristica orienta la scelta del modello
  • Rimuovere la caratteristica blocca la persuasione

Entità

Istituzioni

  • arXiv

Fonti