Intervento in fase di prefill riduce le allucinazioni nei modelli visione-linguaggio
Un team di ricercatori ha introdotto l'Intervento in Fase di Prefill (PTI) come soluzione per ridurre le allucinazioni nei Grandi Modelli Visione-Linguaggio (LVLM). A differenza delle precedenti tecniche di vettori di steering che affrontano i problemi solo durante la fase di decodifica—dove gli errori si accumulano progressivamente—il PTI interviene nella fase di prefill, migliorando la cache iniziale Key-Value (KV) prima che gli errori possano diffondersi. Questo approccio è consapevole delle diverse modalità, generando direzioni separate per dati visivi e testuali. L'obiettivo di questo intervento disaccoppiato è ridurre sia la frequenza che l'intensità dei risultati allucinati. La ricerca è disponibile su arXiv con l'identificatore 2604.25642.
Fatti principali
- PTI interviene una volta durante la fase di prefill
- Le precedenti tecniche di vettori di steering si concentrano solo sulla fase di decodifica
- Gli errori si accumulano autoregressivamente durante la decodifica
- PTI migliora la cache iniziale Key-Value (KV)
- PTI è consapevole delle modalità con direzioni distinte per rappresentazioni visive e testuali
- L'intervento è disaccoppiato
- Mira a ridurre le allucinazioni nei LVLM
- Pubblicato su arXiv con ID 2604.25642
Entità
Istituzioni
- arXiv