SpecPL: Apprendimento Spettrale dei Prompt per Modelli Visione-Linguaggio

ai-technology · 2026-05-07

SpecPL ha svelato una tecnica innovativa di apprendimento dei prompt per modelli visione-linguaggio (VLM) che affronta l'asimmetria modale separando la granularità spettrale. I metodi attuali tipicamente ottimizzano i token testuali basandosi su un encoder visivo statico che trascura le sottili sfumature spettrali. Al contrario, SpecPL utilizza un VAE congelato per scomporre i segnali visivi in bande semantiche a bassa frequenza e componenti dettagliate ad alta frequenza. Un Visual Semantic Bank allinea le rappresentazioni testuali con gli invarianti a bassa frequenza, aiutando a minimizzare l'overfitting. L'approccio raggiunge una discriminazione a grana fine attraverso l'addestramento con granuli controfattuali, che riorganizza i segnali ad alta frequenza, costringendo il modello a differenziare tra granularità visiva e invarianza semantica. Questa metodologia è descritta in un articolo disponibile su arXiv, identificato dall'ID 2605.04504.

Fatti principali

SpecPL sta per Disentangling Spectral Granularity for Prompt Learning.
Affronta l'asimmetria modale nell'apprendimento dei prompt per VLM.
Utilizza un VAE congelato per scomporre i segnali visivi.
Separa i segnali in bande a bassa frequenza (semantica) e ad alta frequenza (granulare).
Impiega un Visual Semantic Bank congelato per l'ancoraggio a bassa frequenza.
L'addestramento con granuli controfattuali permuta i segnali ad alta frequenza.
Articolo disponibile su arXiv con ID 2605.04504.
Pubblicato su arXiv in categoria incrociata.

SpecPL: Apprendimento Spettrale dei Prompt per Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti