La ricerca identifica neuroni specifici responsabili delle allucinazioni di citazioni nei modelli linguistici di grandi dimensioni

ai-technology · 2026-04-22

Uno studio recente pubblicato su arXiv (2604.18880v1) esamina le ragioni dietro la tendenza dei modelli linguistici di grandi dimensioni a produrre citazioni plausibili ma completamente inventate. Analizzando 108.000 riferimenti generati da nove modelli distinti, i ricercatori hanno scoperto che i nomi degli autori erano l'elemento più frequentemente fabbricato in tutti i modelli e contesti. Lo stile di citazione non ha avuto un impatto significativo sui tassi di allucinazione, e le tecniche mirate a migliorare il ragionamento hanno effettivamente peggiorato le prestazioni di richiamo. Utilizzando la regolarizzazione elastic-net con selezione di stabilità sui valori CETT a livello neuronale di Qwen2.5-32B-Instruct, è stato identificato un numero limitato di neuroni di allucinazione specifici per campo (FH-neuroni). Esperimenti di intervento causale hanno dimostrato che l'amplificazione di questi neuroni portava a più allucinazioni, mentre la loro soppressione migliorava le prestazioni complessive, specialmente in certi campi. Le sonde progettate per identificare le allucinazioni in un'area hanno ottenuto scarsi risultati in altre, indicando che i segnali di allucinazione non si trasferiscono attraverso diversi componenti di citazione. Lo studio ha anche rivelato che i modelli spesso mostrano una forte fiducia in questi riferimenti erronei, nonostante la loro completa invenzione.

Fatti principali

Lo studio esamina 108.000 riferimenti generati attraverso 9 modelli LLM
I nomi degli autori falliscono più frequentemente in tutti i modelli e impostazioni
Lo stile di citazione non ha effetti misurabili sui tassi di allucinazione
La distillazione orientata al ragionamento degrada le prestazioni di richiamo
Il rilevamento delle allucinazioni non si generalizza attraverso diversi campi di citazione
I ricercatori hanno identificato neuroni di allucinazione specifici per campo in Qwen2.5-32B-Instruct
L'amplificazione dei FH-neuroni aumenta le allucinazioni, la loro soppressione migliora le prestazioni
I modelli esprimono alta fiducia nelle citazioni fittizie

La ricerca identifica neuroni specifici responsabili delle allucinazioni di citazioni nei modelli linguistici di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti