SARE: Ragionamento Adattivo per Campione per il Riconoscimento Visivo Fine-Grained
È stato proposto un nuovo framework chiamato SARE (Sample-wise Adaptive Reasoning) per il Riconoscimento Visivo Fine-Grained (FGVR) senza addestramento, utilizzando Large Vision-Language Models (LVLMs). Il metodo affronta due limitazioni chiave degli approcci esistenti: inferenza uniforme su campioni con difficoltà variabile e mancanza di riutilizzo dell'esperienza sugli errori. SARE impiega un design a cascata che combina il recupero rapido dei candidati con il ragionamento adattivo, migliorando accuratezza ed efficienza. L'articolo è disponibile su arXiv con ID 2603.17729.
Fatti principali
- SARE sta per Sample-wise Adaptive Reasoning
- Si rivolge al Riconoscimento Visivo Fine-Grained (FGVR) senza addestramento
- Utilizza Large Vision-Language Models (LVLMs)
- Affronta la difficoltà di riconoscimento non uniforme tra i campioni
- Incorpora meccanismi per consolidare l'esperienza specifica degli errori
- Impiega un design a cascata con recupero rapido dei candidati
- ID articolo: arXiv:2603.17729
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv