Sonda Semantica Migliora il Fine-Tuning di CLIP per l'Apprendimento Few-Shot Cross-Dominio

other · 2026-05-13

Uno studio recente pubblicato su arXiv (2605.11659) esplora strategie di fine-tuning per CLIP nell'ambito dell'Apprendimento Few-Shot Cross-Dominio (CDFSL). I ricercatori hanno scoperto che le tecniche basate su adattatori, come LoRA, superano gli approcci basati su prompt come MaPLe, contrariamente ai risultati nei contesti intra-dominio. Attribuiscono l'efficacia di LoRA alla sua capacità di correggere l'attenzione collassata del token CLS visivo, migliorando così sia l'allineamento modale che la differenziazione delle classi concentrandosi sulle aree visive rilevanti per il testo. Inoltre, notano che il token EOS testuale mostra una maggiore attenzione ai campioni visivi, mentre la perdita contrastiva convenzionale di CLIP offre vincoli limitati sull'allineamento modale. Per sfruttare questi risultati, introducono Semantic Probe, un meccanismo di attenzione flessibile volto a rivitalizzare i metodi di fine-tuning intra-dominio nel CDFSL.

Fatti principali

Articolo arXiv 2605.11659
Apprendimento Few-Shot Cross-Dominio (CDFSL)
I metodi basati su adattatori (es. LoRA) superano quelli basati su prompt (es. MaPLe)
LoRA corregge l'attenzione collassata del token CLS visivo
Il token EOS testuale mostra una migliore attenzione ai campioni visivi
La perdita contrastiva di CLIP vincola debolmente l'allineamento modale
Metodo proposto: Semantic Probe
Semantic Probe è un meccanismo di attenzione plug-and-play

Sonda Semantica Migliora il Fine-Tuning di CLIP per l'Apprendimento Few-Shot Cross-Dominio

Fatti principali

Entità

Istituzioni

Fonti