Sonda Semantica Migliora il Fine-Tuning di CLIP per l'Apprendimento Few-Shot Cross-Dominio
Uno studio recente pubblicato su arXiv (2605.11659) esplora strategie di fine-tuning per CLIP nell'ambito dell'Apprendimento Few-Shot Cross-Dominio (CDFSL). I ricercatori hanno scoperto che le tecniche basate su adattatori, come LoRA, superano gli approcci basati su prompt come MaPLe, contrariamente ai risultati nei contesti intra-dominio. Attribuiscono l'efficacia di LoRA alla sua capacità di correggere l'attenzione collassata del token CLS visivo, migliorando così sia l'allineamento modale che la differenziazione delle classi concentrandosi sulle aree visive rilevanti per il testo. Inoltre, notano che il token EOS testuale mostra una maggiore attenzione ai campioni visivi, mentre la perdita contrastiva convenzionale di CLIP offre vincoli limitati sull'allineamento modale. Per sfruttare questi risultati, introducono Semantic Probe, un meccanismo di attenzione flessibile volto a rivitalizzare i metodi di fine-tuning intra-dominio nel CDFSL.
Fatti principali
- Articolo arXiv 2605.11659
- Apprendimento Few-Shot Cross-Dominio (CDFSL)
- I metodi basati su adattatori (es. LoRA) superano quelli basati su prompt (es. MaPLe)
- LoRA corregge l'attenzione collassata del token CLS visivo
- Il token EOS testuale mostra una migliore attenzione ai campioni visivi
- La perdita contrastiva di CLIP vincola debolmente l'allineamento modale
- Metodo proposto: Semantic Probe
- Semantic Probe è un meccanismo di attenzione plug-and-play
Entità
Istituzioni
- arXiv