Variational Adapter migliora la similarità cross-modale nei modelli visione-linguaggio
Un nuovo metodo chiamato Variational Adapter for Cross-modal Similarity Representation (VACSR) affronta il problema dei falsi negativi nei modelli visione-linguaggio. Gli attuali dataset di abbinamento immagine-testo spesso mancano di annotazioni granulari, forzando la similarità continua in una classificazione binaria e compromettendo la generalizzazione. VACSR riformula il compito come inferenza variazionale, costruendo uno spazio latente per la similarità e utilizzando la regolarizzazione per gestire i difetti di annotazione. L'approccio è dettagliato in un articolo su arXiv (2605.30968).
Fatti principali
- VACSR sta per Variational Adapter for Cross-modal Similarity Representation
- Affronta i falsi negativi nell'abbinamento immagine-testo
- Gli attuali dataset mancano di annotazioni cross-modali granulari
- Il metodo utilizza l'inferenza variazionale per modellare la similarità
- Costruisce uno spazio latente per la similarità cross-modale
- Vengono impiegate tecniche di regolarizzazione per l'allocazione dell'incertezza
- L'articolo è disponibile su arXiv con ID 2605.30968
- L'approccio mira a migliorare la generalizzazione nei compiti cross-modali
Entità
Istituzioni
- arXiv