Variational Adapter migliora la similarità cross-modale nei modelli visione-linguaggio

ai-technology · 2026-06-01

Un nuovo metodo chiamato Variational Adapter for Cross-modal Similarity Representation (VACSR) affronta il problema dei falsi negativi nei modelli visione-linguaggio. Gli attuali dataset di abbinamento immagine-testo spesso mancano di annotazioni granulari, forzando la similarità continua in una classificazione binaria e compromettendo la generalizzazione. VACSR riformula il compito come inferenza variazionale, costruendo uno spazio latente per la similarità e utilizzando la regolarizzazione per gestire i difetti di annotazione. L'approccio è dettagliato in un articolo su arXiv (2605.30968).

Fatti principali

VACSR sta per Variational Adapter for Cross-modal Similarity Representation
Affronta i falsi negativi nell'abbinamento immagine-testo
Gli attuali dataset mancano di annotazioni cross-modali granulari
Il metodo utilizza l'inferenza variazionale per modellare la similarità
Costruisce uno spazio latente per la similarità cross-modale
Vengono impiegate tecniche di regolarizzazione per l'allocazione dell'incertezza
L'articolo è disponibile su arXiv con ID 2605.30968
L'approccio mira a migliorare la generalizzazione nei compiti cross-modali

Variational Adapter migliora la similarità cross-modale nei modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti