FAST-GOAL migliora CLIP per descrizioni testuali lunghe
I ricercatori hanno introdotto FAST-GOAL (Fast and Efficient Global-local Object Alignment Learning), un metodo di fine-tuning per migliorare la gestione di descrizioni testuali lunghe da parte di CLIP. CLIP, un modello visione-linguaggio, ha difficoltà con testi dettagliati a causa del suo pre-addestramento su didascalie brevi. FAST-GOAL impiega due componenti: Fast Local Image-Sentence Matching (FLISM) estrae regioni locali dell'immagine tramite rilevamento di oggetti e divisione spaziale, abbinandole a frasi; Token Similarity-based Learning (TSL) massimizza la similarità tra i token patch di specifiche regioni dell'immagine e i loro embedding di regione, applicando lo stesso al testo. Il metodo migliora la capacità del modello di catturare corrispondenze dettagliate. L'articolo è disponibile su arXiv.
Fatti principali
- FAST-GOAL è un metodo di fine-tuning per CLIP.
- CLIP ha difficoltà con descrizioni testuali lunghe.
- FAST-GOAL utilizza l'allineamento semantico globale-locale.
- FLISM estrae regioni locali dell'immagine tramite rilevamento di oggetti e divisione spaziale.
- TSL massimizza la similarità tra token patch e embedding di regione.
- Il metodo applica la similarità dei token sia alle immagini che al testo.
- L'articolo è su arXiv con ID 2605.26615.
- Il tipo di annuncio è nuovo.
Entità
Istituzioni
- arXiv