Divario Modale nella Rilevazione OOD con Modelli Visione-Linguaggio
Un nuovo articolo su arXiv (2605.26661) mette in discussione la pratica comune di utilizzare gli embedding testuali come prototipi di classe per la rilevazione zero-shot out-of-distribution (OOD) in modelli visione-linguaggio pre-addestrati (VLM). Gli autori dimostrano teoricamente che i prototipi testuali pronti all'uso sono disallineati rispetto ai prototipi visivi ottimali, creando un divario modale intrinseco che la sola ingegneria dei prompt non può risolvere. Per affrontare questo problema in condizioni post-hoc, propongono un framework pseudo-supervisionato online che apprende i prototipi di classe direttamente nello spazio delle caratteristiche visive a partire da flussi di dati di test non etichettati.
Fatti principali
- Articolo arXiv 2605.26661
- Titolo: Rispettare il Divario Modale nella Rilevazione Post-hoc Out-of-distribution con Modelli Visione-Linguaggio Pre-addestrati
- Mette in discussione il paradigma testo-come-protipo per la rilevazione OOD zero-shot
- Mostra il disallineamento teorico tra prototipi testuali e visivi
- Propone un framework pseudo-supervisionato online per apprendere prototipi visivi dai dati di test
- Il metodo opera sotto vincolo post-hoc senza accesso ai dati di addestramento
Entità
Istituzioni
- arXiv