LAGO: Focus Adattivo su Regioni di Oggetti Guidato dal Linguaggio per l'Allineamento Visivo-Testuale Zero-Shot
È stato proposto un nuovo metodo chiamato LAGO (Language-Guided Adaptive Object-Region Focus) per l'allineamento visivo-testuale zero-shot. L'approccio affronta le limitazioni nel riconoscimento a grana fine concentrandosi in modo adattivo sulle regioni degli oggetti guidato dal linguaggio, evitando la modalità di fallimento del ciclo di previsione in cui i pregiudizi semantici precoci amplificano gli errori. LAGO riduce il costo di inferenza rispetto ai metodi che si basano su ritagli casuali.
Fatti principali
- LAGO è un metodo per l'allineamento visivo-testuale zero-shot.
- Affronta il riconoscimento a grana fine concentrandosi su parti localizzate.
- Evita la modalità di fallimento del ciclo di previsione.
- Riduce il costo di inferenza rispetto ai metodi con ritagli casuali.
- Il metodo è guidato dal linguaggio e adattivo.
- È proposto nell'articolo arXiv 2605.08156.
- L'articolo è una sottomissione incrociata.
- Il metodo mira al riconoscimento zero-shot senza supervisione specifica del compito.
Entità
Istituzioni
- arXiv