LAGO: Focus Adattivo su Regioni di Oggetti Guidato dal Linguaggio per l'Allineamento Visivo-Testuale Zero-Shot

other · 2026-05-12

È stato proposto un nuovo metodo chiamato LAGO (Language-Guided Adaptive Object-Region Focus) per l'allineamento visivo-testuale zero-shot. L'approccio affronta le limitazioni nel riconoscimento a grana fine concentrandosi in modo adattivo sulle regioni degli oggetti guidato dal linguaggio, evitando la modalità di fallimento del ciclo di previsione in cui i pregiudizi semantici precoci amplificano gli errori. LAGO riduce il costo di inferenza rispetto ai metodi che si basano su ritagli casuali.

Fatti principali

LAGO è un metodo per l'allineamento visivo-testuale zero-shot.
Affronta il riconoscimento a grana fine concentrandosi su parti localizzate.
Evita la modalità di fallimento del ciclo di previsione.
Riduce il costo di inferenza rispetto ai metodi con ritagli casuali.
Il metodo è guidato dal linguaggio e adattivo.
È proposto nell'articolo arXiv 2605.08156.
L'articolo è una sottomissione incrociata.
Il metodo mira al riconoscimento zero-shot senza supervisione specifica del compito.

LAGO: Focus Adattivo su Regioni di Oggetti Guidato dal Linguaggio per l'Allineamento Visivo-Testuale Zero-Shot

Fatti principali

Entità

Istituzioni

Fonti