La ricerca rivela dinamiche asimmetriche nelle allucinazioni dell'IA attraverso l'analisi causale

ai-technology · 2026-04-20

Uno studio recente offre approfondimenti causali su come si generano le allucinazioni nei modelli linguistici autoregressivi, attribuendo il fenomeno a un impegno precoce della traiettoria influenzato da dinamiche attrattive asimmetriche. I ricercatori hanno utilizzato la biforcazione a prompt identico, campionando input identici per tracciare la divergenza spontanea, separando così le dinamiche della traiettoria dalle variabili a livello di prompt. Testando Qwen2.5-1.5B su 61 prompt in sei categorie, è emerso che 27 prompt (44,3%) hanno biforcato, con traiettorie fattuali e allucinate che divergono al primo token generato. La patch di attivazione su 28 strati ha dimostrato un'asimmetria causale significativa: introdurre un'attivazione allucinata in una traiettoria corretta ha portato alla corruzione dell'output nell'87,5% dei test allo strato 20, mentre l'operazione inversa ha prodotto un recupero solo nel 33,3% allo strato 24. Entrambi i risultati hanno superato la baseline del 10,4% e il controllo di patch casuale del 12,5%, raggiungendo una significatività statistica con p = 0,025. La patch a finestra ha indicato che la correzione richiede un intervento sostenuto a più fasi, mentre la corruzione richiede meno sforzo. Documentata nella preprint arXiv 2604.15400v1, questa ricerca fa luce sull'emergenza e persistenza delle allucinazioni nella generazione dei transformer, sottolineando le difficoltà di invertire un percorso allucinato già intrapreso rispetto all'induzione di errori, migliorando così la nostra comprensione dell'affidabilità dell'IA e dei meccanismi di errore nei modelli linguistici.

Fatti principali

Le allucinazioni nei modelli linguistici autoregressivi sono collegate a un impegno precoce della traiettoria governato da dinamiche attrattive asimmetriche.
La biforcazione a prompt identico isola le dinamiche della traiettoria dalle variabili confondenti a livello di prompt campionando ripetutamente input identici.
Su Qwen2.5-1.5B, 27 su 61 prompt (44,3%) hanno biforcato con traiettorie divergenti al primo token generato.
La patch di attivazione mostra che iniettare un'attivazione allucinata in una traiettoria corretta corrompe l'output nell'87,5% dei test allo strato 20.
Invertire l'allucinazione iniettando un'attivazione corretta recupera solo il 33,3% allo strato 24.
Sia i tassi di corruzione che di recupero superano la baseline del 10,4% e il controllo di patch casuale del 12,5%, con p = 0,025.
La patch a finestra indica che la correzione richiede un intervento sostenuto a più fasi, mentre la corruzione è più facile da indurre.
Lo studio è documentato nella preprint arXiv 2604.15400v1, utilizzando metodi causali per analizzare la generazione dei transformer.

La ricerca rivela dinamiche asimmetriche nelle allucinazioni dell'IA attraverso l'analisi causale

Fatti principali

Entità

Istituzioni

Fonti