SIEVES: Il punteggio di evidenza visiva potenzia la previsione selettiva degli MLLM
La tecnica recentemente introdotta nota come SIEVES (Selective Prediction through Visual Evidence Scoring) migliora l'affidabilità dei modelli linguistici multimodali di grandi dimensioni (MLLM) in contesti fuori distribuzione (OOD). Questo metodo richiede che i modelli ragionatori generino evidenze visive localizzate durante le risposte, mentre un selettore viene addestrato a valutare la qualità di questa localizzazione. Fornendo punteggi di confidenza e astenendosi dal rispondere a query a bassa confidenza, SIEVES dimostra un miglioramento fino a tre volte nella copertura su benchmark OOD difficili, mantenendo al contempo i parametri di rischio definiti dall'utente. La ricerca è disponibile su arXiv con l'identificatore 2604.25855.
Fatti principali
- 1. SIEVES sta per Selective Prediction through Visual Evidence Scoring
- 2. Il metodo migliora la copertura fino a tre volte sui benchmark OOD
- 3. Richiede che i modelli ragionatori producano evidenze visive localizzate
- 4. Il selettore impara a stimare la qualità della localizzazione
- 5. Mira a un'implementazione affidabile in scenari reali fuori distribuzione
- 6. Articolo disponibile su arXiv con ID 2604.25855
- 7. Affronta la previsione selettiva per gli MLLM
- 8. Utilizza punteggio di confidenza e meccanismo di astensione
Entità
Istituzioni
- arXiv