Impatto dell'Architettura e della Scala sulla Quantizzazione FP4 per la Segmentazione di Anomalie
Un recente articolo di ricerca da arXiv (2605.27616) indaga l'impatto dell'architettura del modello, della scala e delle tecniche di addestramento consapevole della quantizzazione FP4 (QAT) sulla segmentazione di anomalie per la rilevazione in tempo reale di tumori cerebrali. I modelli basati sull'attenzione, come lo Swin Transformer, mostrano una notevole resilienza alle variazioni nella scelta della ricetta, mentre le CNN subiscono un calo delle prestazioni quando sottoposte a ricette di quantizzazione del gradiente a scale maggiori. A capacità inferiori, FP4 può causare il fallimento dell'attenzione softmax, ma strategie QAT sofisticate possono mitigare questo problema. I risultati sono validati tramite cross-validazione a cinque fold.
Fatti principali
- La segmentazione di anomalie in tempo reale richiede un alto richiamo e un'inferenza efficiente a bassa precisione.
- Lo studio valuta l'interazione tra architettura, scala e ricetta QAT FP4 sulla segmentazione di tumori cerebrali.
- Le architetture basate sull'attenzione mostrano una notevole resilienza alla scelta della ricetta.
- Le CNN degradano sotto ricette di quantizzazione del gradiente a scale maggiori.
- A bassa capacità, FP4 può discretizzare l'attenzione softmax; ricette QAT avanzate prevengono il collasso.
- A scale maggiori, ricette avanzate mitigano il rumore di quantizzazione del gradiente per le CNN.
- La cross-validazione a cinque fold a livello di paziente conferma la robustezza alla partizione dei dati.
- Lo Swin Transformer è robusto alla scelta della ricetta QAT.
Entità
Istituzioni
- arXiv