Il Dataset di Didascalie Negative Difficili Migliora la Comprensione Visivo-Linguistica Fine
I ricercatori propongono Hard Negative Captions (HNC), un dataset creato automaticamente di didascalie negative difficili per l'addestramento Image-Text-Matching (ITM). HNC mira a migliorare la comprensione cross-modale fine nei modelli visione-linguaggio affrontando le associazioni deboli nelle coppie immagine-testo raccolte dal web. Il team fornisce anche un test set manuale impegnativo per valutare i modelli su compiti di disallineamento cross-modale fine con diversa complessità compositiva. I risultati mostrano che l'addestramento su HNC migliora le capacità zero-shot nel rilevare disallineamenti in compiti diagnostici e aumenta la robustezza in scenari di input visivo rumoroso.
Fatti principali
- HNC è un dataset creato automaticamente di didascalie negative difficili.
- È progettato per l'addestramento Image-Text-Matching (ITM).
- L'obiettivo è ottenere una comprensione cross-modale fine nei modelli visione-linguaggio.
- Un test set creato manualmente valuta i modelli su compiti di disallineamento cross-modale fine.
- Il test set ha diversi livelli di complessità compositiva.
- L'addestramento su HNC migliora le capacità zero-shot nel rilevare disallineamenti.
- I modelli addestrati su HNC si comportano in modo robusto in scenari di input visivo rumoroso.
- La ricerca affronta le associazioni deboli nelle coppie immagine-testo raccolte dal web.
Entità
—