Il Framework STBIR Combina Schizzi e Testo per un Recupero di Immagini Fine-Grained Migliorato
Il nuovo framework di ricerca introdotto, Sketch and Text Based Image Retrieval (STBIR), affronta la sfida del recupero di immagini fine-grained integrando schizzi disegnati a mano con descrizioni testuali. Utilizza i contorni strutturali degli schizzi insieme ai dettagli di colore e texture provenienti dal testo. STBIR comprende tre elementi chiave: un modulo di miglioramento della robustezza guidato dall'apprendimento curricolare per adattarsi a diverse qualità delle query, un modulo di ottimizzazione dello spazio delle caratteristiche basato sulla conoscenza delle categorie per una rappresentazione migliorata, e un metodo multi-stadio per l'integrazione di caratteristiche cross-modali. Questo studio, dettagliato nella preprint arXiv 2604.15735v1, evidenzia i vantaggi di combinare schizzi e testo per un abbinamento preciso delle immagini, migliorando i sistemi AI multimodali.
Fatti principali
- La ricerca propone il framework Sketch and Text Based Image Retrieval (STBIR)
- STBIR combina schizzi disegnati a mano con descrizioni testuali per il recupero di immagini
- Gli schizzi forniscono contorni strutturali mentre il testo fornisce informazioni su colore e texture
- Il framework include un modulo di miglioramento della robustezza guidato dall'apprendimento curricolare
- Un modulo di ottimizzazione dello spazio delle caratteristiche basato sulla conoscenza delle categorie potenzia la capacità rappresentativa
- L'integrazione multi-stadio di caratteristiche cross-modali sinergizza diverse fonti di informazione
- La ricerca affronta i gap modali nel recupero di immagini fine-grained
- Il lavoro è documentato nella preprint arXiv 2604.15735v1 come annuncio cross
Entità
Istituzioni
- arXiv