ARTFEED — Contemporary Art Intelligence

SIRA: Metodo Senza Addestramento per Ridurre le Allucinazioni nei LVLM

ai-technology · 2026-05-16

Un nuovo approccio chiamato SIRA (Shared-Prefix Internal Reconstruction of Attribution) è stato introdotto dai ricercatori come framework di decodifica contrastiva interna senza addestramento, volto a ridurre le allucinazioni nei grandi modelli visione-linguaggio (LVLM). A differenza delle attuali tecniche di decodifica contrastiva che si basano sul confronto delle previsioni da immagini originali con input visivi alterati esternamente—che possono portare a artefatti fuori dal manifold e richiedere costosi passaggi in avanti aggiuntivi—SIRA genera un riferimento controfattuale all'interno dello stesso LVLM. Ciò è ottenuto sfruttando il flusso di informazioni a stadi dei trasformatori multimodali, permettendo ai token di immagine e testo di interagire tramite un prefisso condiviso, creando così uno stato multimodale allineato. La metodologia è dettagliata nell'articolo arXiv 2605.14621.

Fatti principali

  • SIRA è un framework di decodifica contrastiva interna senza addestramento.
  • Mitiga le allucinazioni nei LVLM senza perturbazioni esterne.
  • Utilizza un prefisso condiviso per formare uno stato multimodale allineato.
  • Forka un ramo controfattuale nei successivi strati del trasformatore.
  • Il metodo evita artefatti fuori dal manifold e passaggi in avanti extra.
  • L'articolo è disponibile su arXiv con ID 2605.14621.
  • L'approccio sfrutta il flusso di informazioni a stadi nei trasformatori multimodali.
  • SIRA preserva l'interpretazione del prompt, la cronologia di decodifica, la struttura posizionale e il grounding visivo iniziale.

Entità

Istituzioni

  • arXiv

Fonti