PictSure: Gli Embedding del Pretraining sono Fondamentali per i Classificatori di Immagini con Apprendimento In-Context
Un nuovo articolo di ricerca, 'PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers', pubblicato su arXiv (2506.14842v2), indaga i fattori che influenzano l'apprendimento in-context (ICL) per la classificazione di immagini con pochi esempi (FSIC). Gli autori introducono PictSure, una famiglia di modelli ICL solo visivi che utilizzano architetture di transformer fusion. I loro esperimenti rivelano che la qualità degli embedding del pretraining dell'encoder è fortemente correlata alle prestazioni ICL downstream, sia in-domain che out-of-domain. Al contrario, variare il dataset di addestramento del transformer fusion—da solo ImageNet a miscele multi-dominio diverse—produce guadagni aggiuntivi limitati. Lo studio sottolinea l'importanza della qualità della rappresentazione del pretraining rispetto alla diversità dei dati del fusion layer per un ICL efficace nella classificazione delle immagini.
Fatti principali
- Articolo intitolato 'PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers'
- Pubblicato su arXiv con ID 2506.14842v2
- Introduce PictSure, una famiglia di modelli ICL solo visivi
- Utilizza architetture di transformer fusion
- Trova che la qualità degli embedding del pretraining è fortemente correlata alle prestazioni ICL
- Variare i dati di addestramento del transformer fusion (ImageNet vs. miscele multi-dominio) fornisce guadagni limitati
- Valutato sia in contesti in-domain che out-of-domain
- Si concentra sulla classificazione di immagini con pochi esempi (FSIC)
Entità
Istituzioni
- arXiv