L'obiettivo del pre-training influisce sulla classificazione a grana fine con pochi dati

other · 2026-05-18

I ricercatori hanno condotto un'analisi delle inclusioni graduate degli smeraldi, concentrandosi su quattro encoder ViT-B/16, tutti con capacità di backbone simili. Hanno utilizzato un dataset specializzato contenente immagini etichettate suddivise in tre gruppi distinti. Lo studio ha valutato varie metodologie di addestramento, tra cui classificazione supervisionata, apprendimento contrastivo, ricostruzione mascherata e auto-distillazione. Per valutare l'efficacia della rappresentazione, è stata eseguita una convalida incrociata leave-one-out utilizzando sonde lineari e non lineari, impiegando test di permutazione con 1.000 iterazioni. I risultati hanno rivelato che gli encoder supervisionati e contrastivi hanno raggiunto la massima separabilità lineare, mentre MAE ha performato meglio con metodi non lineari, aiutando nella selezione di encoder pre-addestrati per compiti di classificazione a grana fine.

Fatti principali

Lo studio si concentra sulla classificazione delle inclusioni degli smeraldi con un dataset personalizzato di immagini etichettate in tre classi.
Confronta quattro encoder ViT-B/16 congelati: classificazione supervisionata, SigLIP2, MAE, DINOv3.
La valutazione utilizza la convalida incrociata leave-one-out con sonde lineari e non lineari.
Il test di permutazione (N=1000) sull'AUC macro one-vs-rest controlla il rumore statistico.
Gli encoder supervisionati e contrastivi forniscono la massima separabilità lineare (AUC logistica: 0,768 e 0,735; AUC SVM: 0,739 e 0,697).
MAE migliora con sonde non lineari.
La ricerca è pubblicata su arXiv con ID 2605.15599.
Lo studio affronta la classificazione a grana fine con dati estremamente ridotti in domini esperti.

L'obiettivo del pre-training influisce sulla classificazione a grana fine con pochi dati

Fatti principali

Entità

Istituzioni

Fonti