I neuroni dell'allucinazione non riescono a generalizzare tra domini di conoscenza nei LLM

ai-technology · 2026-04-24

Un nuovo studio su arXiv (2604.19765v1) esplora l'adattabilità dei 'neuroni dell'allucinazione' (neuroni H) presenti nelle reti feed-forward. Questi neuroni, che costituiscono meno dello 0,1% del totale, aiutano a segnalare quando i modelli linguistici di grandi dimensioni stanno allucinando. I ricercatori hanno utilizzato un metodo che copriva sei diverse aree: QA generale, legale, finanziario, scientifico, ragionamento morale e vulnerabilità del codice, insieme a cinque modelli open-weight con parametri compresi tra 3 miliardi e 8 miliardi. I risultati hanno mostrato che i neuroni H non si trasferiscono bene tra domini diversi. Mentre i classificatori hanno ottenuto un AUROC di 0,783 nel loro dominio originale, il punteggio è sceso a 0,563 in un dominio diverso, suggerendo che i processi di allucinazione sono unici per ogni area specifica.

Fatti principali

I neuroni H costituiscono meno dello 0,1% dei neuroni delle reti feed-forward.
Lo studio ha testato 6 domini: QA generale, legale, finanziario, scientifico, ragionamento morale e vulnerabilità del codice.
Sono stati utilizzati 5 modelli open-weight da 3B a 8B parametri.
AUROC intra-dominio: 0,783.
AUROC cross-dominio: 0,563.
Delta: 0,220, p < 0,001.
Il degrado è stato coerente in tutti i modelli.
L'allucinazione manca di una firma neurale universale.

I neuroni dell'allucinazione non riescono a generalizzare tra domini di conoscenza nei LLM

Fatti principali

Entità

Istituzioni

Fonti