ARTFEED — Contemporary Art Intelligence

Variational Adapter migliora la similarità cross-modale nei modelli visione-linguaggio

ai-technology · 2026-06-01

Un nuovo metodo chiamato Variational Adapter for Cross-modal Similarity Representation (VACSR) affronta il problema dei falsi negativi nei modelli visione-linguaggio. Gli attuali dataset di abbinamento immagine-testo spesso mancano di annotazioni granulari, forzando la similarità continua in una classificazione binaria e compromettendo la generalizzazione. VACSR riformula il compito come inferenza variazionale, costruendo uno spazio latente per la similarità e utilizzando la regolarizzazione per gestire i difetti di annotazione. L'approccio è dettagliato in un articolo su arXiv (2605.30968).

Fatti principali

  • VACSR sta per Variational Adapter for Cross-modal Similarity Representation
  • Affronta i falsi negativi nell'abbinamento immagine-testo
  • Gli attuali dataset mancano di annotazioni cross-modali granulari
  • Il metodo utilizza l'inferenza variazionale per modellare la similarità
  • Costruisce uno spazio latente per la similarità cross-modale
  • Vengono impiegate tecniche di regolarizzazione per l'allocazione dell'incertezza
  • L'articolo è disponibile su arXiv con ID 2605.30968
  • L'approccio mira a migliorare la generalizzazione nei compiti cross-modali

Entità

Istituzioni

  • arXiv

Fonti