Scoperta Generalizzata di Categorie sotto Cambiamenti di Dominio Utilizzando Modelli Fondamentali

ai-technology · 2026-05-06

Un recente preprint su arXiv (2605.00906) presenta tre nuovi framework per la Scoperta Generalizzata di Categorie (GCD) che operano sotto cambiamenti di dominio, transitando i modelli fondamentali dalla visione auto-supervisionata ai modelli visione-linguaggio. L'approccio iniziale, HiLo, separa gli attributi di dominio e semantici attraverso estrazione di caratteristiche a più livelli, minimizzazione dell'informazione mutua, augmentazione PatchMix e campionamento curriculare. Basandosi su HiLo, HLPrompt incorpora un tuning spaziale dei prompt semanticamente consapevole per mitigare le interferenze di sfondo e dominio. Nel frattempo, VLPrompt utilizza modelli visione-linguaggio impiegando prompt testuali fattorizzati insieme a regolarizzazione della coerenza cross-modale. Tutti e tre i framework si basano su principi di progettazione simili. Questa ricerca affronta il problema pratico dei dati non etichettati che mostrano variazioni sia di dominio che semantiche, sfidando la premessa di dominio singolo dei precedenti metodi GCD.

Fatti principali

Preprint arXiv 2605.00906
Tre framework per GCD sotto cambiamenti di dominio
HiLo utilizza estrazione di caratteristiche a più livelli e minimizzazione dell'informazione mutua
HLPrompt aggiunge tuning spaziale dei prompt semanticamente consapevole
VLPrompt utilizza prompt testuali fattorizzati e coerenza cross-modale
I metodi adattano modelli di visione auto-supervisionata e visione-linguaggio
Affronta cambiamenti di dominio e semantici in dati non etichettati
Principi di progettazione condivisi tra i metodi

Scoperta Generalizzata di Categorie sotto Cambiamenti di Dominio Utilizzando Modelli Fondamentali

Fatti principali

Entità

Istituzioni

Fonti