PictSure: Gli Embedding del Pretraining sono Fondamentali per i Classificatori di Immagini con Apprendimento In-Context

ai-technology · 2026-06-01

Un nuovo articolo di ricerca, 'PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers', pubblicato su arXiv (2506.14842v2), indaga i fattori che influenzano l'apprendimento in-context (ICL) per la classificazione di immagini con pochi esempi (FSIC). Gli autori introducono PictSure, una famiglia di modelli ICL solo visivi che utilizzano architetture di transformer fusion. I loro esperimenti rivelano che la qualità degli embedding del pretraining dell'encoder è fortemente correlata alle prestazioni ICL downstream, sia in-domain che out-of-domain. Al contrario, variare il dataset di addestramento del transformer fusion—da solo ImageNet a miscele multi-dominio diverse—produce guadagni aggiuntivi limitati. Lo studio sottolinea l'importanza della qualità della rappresentazione del pretraining rispetto alla diversità dei dati del fusion layer per un ICL efficace nella classificazione delle immagini.

Fatti principali

Articolo intitolato 'PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers'
Pubblicato su arXiv con ID 2506.14842v2
Introduce PictSure, una famiglia di modelli ICL solo visivi
Utilizza architetture di transformer fusion
Trova che la qualità degli embedding del pretraining è fortemente correlata alle prestazioni ICL
Variare i dati di addestramento del transformer fusion (ImageNet vs. miscele multi-dominio) fornisce guadagni limitati
Valutato sia in contesti in-domain che out-of-domain
Si concentra sulla classificazione di immagini con pochi esempi (FSIC)

PictSure: Gli Embedding del Pretraining sono Fondamentali per i Classificatori di Immagini con Apprendimento In-Context

Fatti principali

Entità

Istituzioni

Fonti