Divario Modale nella Rilevazione OOD con Modelli Visione-Linguaggio

ai-technology · 2026-05-27

Un nuovo articolo su arXiv (2605.26661) mette in discussione la pratica comune di utilizzare gli embedding testuali come prototipi di classe per la rilevazione zero-shot out-of-distribution (OOD) in modelli visione-linguaggio pre-addestrati (VLM). Gli autori dimostrano teoricamente che i prototipi testuali pronti all'uso sono disallineati rispetto ai prototipi visivi ottimali, creando un divario modale intrinseco che la sola ingegneria dei prompt non può risolvere. Per affrontare questo problema in condizioni post-hoc, propongono un framework pseudo-supervisionato online che apprende i prototipi di classe direttamente nello spazio delle caratteristiche visive a partire da flussi di dati di test non etichettati.

Fatti principali

Articolo arXiv 2605.26661
Titolo: Rispettare il Divario Modale nella Rilevazione Post-hoc Out-of-distribution con Modelli Visione-Linguaggio Pre-addestrati
Mette in discussione il paradigma testo-come-protipo per la rilevazione OOD zero-shot
Mostra il disallineamento teorico tra prototipi testuali e visivi
Propone un framework pseudo-supervisionato online per apprendere prototipi visivi dai dati di test
Il metodo opera sotto vincolo post-hoc senza accesso ai dati di addestramento

Divario Modale nella Rilevazione OOD con Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti