SIRA: Metodo Senza Addestramento per Ridurre le Allucinazioni nei LVLM

ai-technology · 2026-05-16

Un nuovo approccio chiamato SIRA (Shared-Prefix Internal Reconstruction of Attribution) è stato introdotto dai ricercatori come framework di decodifica contrastiva interna senza addestramento, volto a ridurre le allucinazioni nei grandi modelli visione-linguaggio (LVLM). A differenza delle attuali tecniche di decodifica contrastiva che si basano sul confronto delle previsioni da immagini originali con input visivi alterati esternamente—che possono portare a artefatti fuori dal manifold e richiedere costosi passaggi in avanti aggiuntivi—SIRA genera un riferimento controfattuale all'interno dello stesso LVLM. Ciò è ottenuto sfruttando il flusso di informazioni a stadi dei trasformatori multimodali, permettendo ai token di immagine e testo di interagire tramite un prefisso condiviso, creando così uno stato multimodale allineato. La metodologia è dettagliata nell'articolo arXiv 2605.14621.

Fatti principali

SIRA è un framework di decodifica contrastiva interna senza addestramento.
Mitiga le allucinazioni nei LVLM senza perturbazioni esterne.
Utilizza un prefisso condiviso per formare uno stato multimodale allineato.
Forka un ramo controfattuale nei successivi strati del trasformatore.
Il metodo evita artefatti fuori dal manifold e passaggi in avanti extra.
L'articolo è disponibile su arXiv con ID 2605.14621.
L'approccio sfrutta il flusso di informazioni a stadi nei trasformatori multimodali.
SIRA preserva l'interpretazione del prompt, la cronologia di decodifica, la struttura posizionale e il grounding visivo iniziale.

SIRA: Metodo Senza Addestramento per Ridurre le Allucinazioni nei LVLM

Fatti principali

Entità

Istituzioni

Fonti