Nuovo framework AI migliora la localizzazione di oggetti in-context senza supervisione di categoria
Un articolo di ricerca introduce un framework di addestramento a due stadi per la localizzazione di oggetti in-context (ICL) che opera senza supervisione di categoria. Il metodo ottimizza esplicitamente l'attenzione tra i bounding box di supporto e le immagini di query utilizzando l'apprendimento per rinforzo, affrontando le limitazioni dei modelli visione-linguaggio esistenti che si basano su etichette di categoria e introducono bias. L'approccio mira a consentire una localizzazione agnostica rispetto alla categoria e visivamente fondata per applicazioni come l'editing di immagini e la ricerca personalizzata. L'articolo è disponibile su arXiv con ID 2605.31145.
Fatti principali
- La localizzazione in-context (ICL) localizza un oggetto target da esempi di supporto in un'immagine di query senza addestramento o aggiornamenti dei parametri.
- I metodi esistenti richiedono una supervisione esplicita di categoria, limitando l'applicabilità a oggetti senza nome o specifici dell'istanza.
- Il nuovo framework utilizza un processo di addestramento a due stadi per ottimizzare l'attenzione in-context senza etichette di categoria.
- L'apprendimento per rinforzo affina ulteriormente le prestazioni di localizzazione.
- L'approccio si rivolge ad applicazioni come l'editing di immagini, la ricerca visiva personalizzata e il recupero.
- L'articolo è pubblicato su arXiv con ID 2605.31145.
Entità
Istituzioni
- arXiv