CA-DSSL: Apprendimento Auto-Supervisionato per Modelli MCU Sub-Megabyte
Un nuovo approccio chiamato Capacity-Aware Distilled Self-Supervised Learning (CA-DSSL) facilita il pre-addestramento auto-supervisionato per modelli di microcontrollori (MCU) con meno di 500.000 parametri, un'area precedentemente inesplorata a causa di sfide come la prevalenza della testa di proiezione, le limitazioni della rappresentazione e la sensibilità all'aumento dei dati. Impiegando un insegnante DINO ViT-S/16 congelato, CA-DSSL implementa distillazione asimmetrica, distillazione di caratteristiche multiscala e un curriculum di aumento graduale. Utilizzando un backbone MobileNetV2-0.35 (396.000 parametri) addestrato su CIFAR-100, CA-DSSL raggiunge un'accuratezza di linear-probe del 62,7% (media su 3 semi), superando SimCLR-Tiny di 18 punti percentuali e eguagliando SEED (61,7%) utilizzando 10 volte meno parametri di proiezione (426.000 contro 3,15 milioni), raggiungendo il 94,0% del limite superiore supervisionato. Questo metodo è sia senza etichette che senza testo, ideale per dispositivi edge con risorse limitate.
Fatti principali
- 1. CA-DSSL è un framework di apprendimento auto-supervisionato guidato da insegnante per modelli di classe MCU.
- 2. Affronta tre ostacoli: dominanza della testa di proiezione, collo di bottiglia della rappresentazione e sensibilità all'aumento.
- 3. Utilizza un insegnante DINO ViT-S/16 congelato per distillazione asimmetrica.
- 4. Impiega distillazione di caratteristiche multiscala e un curriculum di aumento progressivo.
- 5. Testato su backbone MobileNetV2-0.35 con 396.000 parametri.
- 6. Pre-addestrato sul dataset CIFAR-100.
- 7. Raggiunge un'accuratezza di linear-probe del 62,7% (media su 3 semi).
- 8. Supera SimCLR-Tiny di 18 punti percentuali.
- 9. Eguaglia SEED (61,7%) con 426.000 contro 3,15 milioni di parametri di proiezione.
- 10. Raggiunge il 94,0% di un limite superiore supervisionato.
Entità
Istituzioni
- arXiv