Intervento in fase di prefill riduce le allucinazioni nei modelli visione-linguaggio

ai-technology · 2026-04-30

Un team di ricercatori ha introdotto l'Intervento in Fase di Prefill (PTI) come soluzione per ridurre le allucinazioni nei Grandi Modelli Visione-Linguaggio (LVLM). A differenza delle precedenti tecniche di vettori di steering che affrontano i problemi solo durante la fase di decodifica—dove gli errori si accumulano progressivamente—il PTI interviene nella fase di prefill, migliorando la cache iniziale Key-Value (KV) prima che gli errori possano diffondersi. Questo approccio è consapevole delle diverse modalità, generando direzioni separate per dati visivi e testuali. L'obiettivo di questo intervento disaccoppiato è ridurre sia la frequenza che l'intensità dei risultati allucinati. La ricerca è disponibile su arXiv con l'identificatore 2604.25642.

Fatti principali

PTI interviene una volta durante la fase di prefill
Le precedenti tecniche di vettori di steering si concentrano solo sulla fase di decodifica
Gli errori si accumulano autoregressivamente durante la decodifica
PTI migliora la cache iniziale Key-Value (KV)
PTI è consapevole delle modalità con direzioni distinte per rappresentazioni visive e testuali
L'intervento è disaccoppiato
Mira a ridurre le allucinazioni nei LVLM
Pubblicato su arXiv con ID 2604.25642

Intervento in fase di prefill riduce le allucinazioni nei modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti