ARTFEED — Contemporary Art Intelligence

Il Dataset di Didascalie Negative Difficili Migliora la Comprensione Visivo-Linguistica Fine

ai-technology · 2026-05-09

I ricercatori propongono Hard Negative Captions (HNC), un dataset creato automaticamente di didascalie negative difficili per l'addestramento Image-Text-Matching (ITM). HNC mira a migliorare la comprensione cross-modale fine nei modelli visione-linguaggio affrontando le associazioni deboli nelle coppie immagine-testo raccolte dal web. Il team fornisce anche un test set manuale impegnativo per valutare i modelli su compiti di disallineamento cross-modale fine con diversa complessità compositiva. I risultati mostrano che l'addestramento su HNC migliora le capacità zero-shot nel rilevare disallineamenti in compiti diagnostici e aumenta la robustezza in scenari di input visivo rumoroso.

Fatti principali

  • HNC è un dataset creato automaticamente di didascalie negative difficili.
  • È progettato per l'addestramento Image-Text-Matching (ITM).
  • L'obiettivo è ottenere una comprensione cross-modale fine nei modelli visione-linguaggio.
  • Un test set creato manualmente valuta i modelli su compiti di disallineamento cross-modale fine.
  • Il test set ha diversi livelli di complessità compositiva.
  • L'addestramento su HNC migliora le capacità zero-shot nel rilevare disallineamenti.
  • I modelli addestrati su HNC si comportano in modo robusto in scenari di input visivo rumoroso.
  • La ricerca affronta le associazioni deboli nelle coppie immagine-testo raccolte dal web.

Entità

Fonti