Modulo di Immaginazione Latente Migliora la Calibrazione dei VLM Solo Testuali

ai-technology · 2026-05-14

È stata scoperta una significativa lacuna nei modelli visione-linguaggio (VLM) quando vengono utilizzati esclusivamente con input testuali: l'assenza della componente visiva porta a notevoli cali di accuratezza e a una grave miscalibrazione, nonostante le descrizioni testuali mantengano informazioni semantiche essenziali. Le prestazioni del modello si discostano dalla sua base linguistica originale quando viene sollecitato solo con testo. Per affrontare questo problema, i ricercatori introducono il Modulo di Immaginazione Latente (LIM), un meccanismo di attenzione incrociata semplificato che genera embedding latenti immaginati dal testo e li integra in un backbone VLM statico, eliminando la necessità di generazione di immagini a livello di pixel. LIM migliora l'accuratezza e minimizza gli errori di calibrazione in vari benchmark solo testuali, suggerendo che il completamento della modalità latente può collegare efficacemente l'addestramento multimodale con applicazioni esclusivamente testuali.

Fatti principali

I modelli visione-linguaggio (VLM) subiscono cali di accuratezza e miscalibrazione su input solo testuali.
Il fallimento non è dovuto esclusivamente alla mancanza di informazioni semantiche.
L'aggiunta di un segnale visivo tramite immagini generate ripristina parzialmente accuratezza e calibrazione.
Il Modulo di Immaginazione Latente (LIM) è un modulo di attenzione incrociata leggero.
LIM prevede embedding latenti immaginati dall'input testuale.
LIM alimenta gli embedding in un backbone VLM congelato senza sintesi di immagini a livello di pixel.
LIM migliora l'accuratezza e riduce l'errore di calibrazione in benchmark solo testuali e compiti non visti.
Lo studio è pubblicato su arXiv con ID 2605.12517.

Modulo di Immaginazione Latente Migliora la Calibrazione dei VLM Solo Testuali

Fatti principali

Entità

Istituzioni

Fonti