ARTFEED — Contemporary Art Intelligence

Intervento in fase di prefill riduce le allucinazioni nei modelli visione-linguaggio

ai-technology · 2026-04-30

Un team di ricercatori ha introdotto l'Intervento in Fase di Prefill (PTI) come soluzione per ridurre le allucinazioni nei Grandi Modelli Visione-Linguaggio (LVLM). A differenza delle precedenti tecniche di vettori di steering che affrontano i problemi solo durante la fase di decodifica—dove gli errori si accumulano progressivamente—il PTI interviene nella fase di prefill, migliorando la cache iniziale Key-Value (KV) prima che gli errori possano diffondersi. Questo approccio è consapevole delle diverse modalità, generando direzioni separate per dati visivi e testuali. L'obiettivo di questo intervento disaccoppiato è ridurre sia la frequenza che l'intensità dei risultati allucinati. La ricerca è disponibile su arXiv con l'identificatore 2604.25642.

Fatti principali

  • PTI interviene una volta durante la fase di prefill
  • Le precedenti tecniche di vettori di steering si concentrano solo sulla fase di decodifica
  • Gli errori si accumulano autoregressivamente durante la decodifica
  • PTI migliora la cache iniziale Key-Value (KV)
  • PTI è consapevole delle modalità con direzioni distinte per rappresentazioni visive e testuali
  • L'intervento è disaccoppiato
  • Mira a ridurre le allucinazioni nei LVLM
  • Pubblicato su arXiv con ID 2604.25642

Entità

Istituzioni

  • arXiv

Fonti