La distillazione canonica della conoscenza supera i metodi complessi nella segmentazione semantica
Un recente studio su arXiv (2604.25530) indica che le tecniche canoniche di distillazione della conoscenza (KD) per la segmentazione semantica superano gli obiettivi più intricati e artigianali quando il tempo di calcolo è equivalente. I ricercatori hanno notato che i confronti basati sulle iterazioni possono essere ingannevoli, poiché i metodi complessi tendono ad aumentare i costi per iterazione. Con un addestramento prolungato, la distillazione basata sulle caratteristiche raggiunge prestazioni di alto livello per ResNet-18 su Cityscapes e ADE20K. Uno studente PSPNet ResNet-18, utilizzando solo un quarto dei parametri, raggiunge il 99% del mIoU del suo insegnante ResNet-101 su Cityscapes (79,0 rispetto a 79,8) e il 92% su ADE20K.
Fatti principali
- 1. La KD canonica basata su logit e caratteristiche supera i recenti metodi specifici per la segmentazione a parità di calcolo.
- 2. La distillazione basata sulle caratteristiche raggiunge prestazioni all'avanguardia per ResNet-18 su Cityscapes e ADE20K.
- 3. Lo studente PSPNet ResNet-18 raggiunge il 99% del mIoU dell'insegnante su Cityscapes (79,0 vs 79,8).
- 4. Lo studente PSPNet ResNet-18 raggiunge il 92% del mIoU dell'insegnante su ADE20K.
- 5. Lo studente utilizza solo un quarto dei parametri dell'insegnante.
- 6. I confronti basati sulle iterazioni sono fuorvianti a causa di budget di addestramento disuguali.
- 7. Studio pubblicato su arXiv con ID 2604.25530.
- 8. Ricerca condotta da autori di arXiv.
Entità
Istituzioni
- arXiv