SpecPL: Apprendimento Spettrale dei Prompt per Modelli Visione-Linguaggio
SpecPL ha svelato una tecnica innovativa di apprendimento dei prompt per modelli visione-linguaggio (VLM) che affronta l'asimmetria modale separando la granularità spettrale. I metodi attuali tipicamente ottimizzano i token testuali basandosi su un encoder visivo statico che trascura le sottili sfumature spettrali. Al contrario, SpecPL utilizza un VAE congelato per scomporre i segnali visivi in bande semantiche a bassa frequenza e componenti dettagliate ad alta frequenza. Un Visual Semantic Bank allinea le rappresentazioni testuali con gli invarianti a bassa frequenza, aiutando a minimizzare l'overfitting. L'approccio raggiunge una discriminazione a grana fine attraverso l'addestramento con granuli controfattuali, che riorganizza i segnali ad alta frequenza, costringendo il modello a differenziare tra granularità visiva e invarianza semantica. Questa metodologia è descritta in un articolo disponibile su arXiv, identificato dall'ID 2605.04504.
Fatti principali
- SpecPL sta per Disentangling Spectral Granularity for Prompt Learning.
- Affronta l'asimmetria modale nell'apprendimento dei prompt per VLM.
- Utilizza un VAE congelato per scomporre i segnali visivi.
- Separa i segnali in bande a bassa frequenza (semantica) e ad alta frequenza (granulare).
- Impiega un Visual Semantic Bank congelato per l'ancoraggio a bassa frequenza.
- L'addestramento con granuli controfattuali permuta i segnali ad alta frequenza.
- Articolo disponibile su arXiv con ID 2605.04504.
- Pubblicato su arXiv in categoria incrociata.
Entità
Istituzioni
- arXiv