SAM 3 e DINOv3 distillati per il monitoraggio del bestiame su dispositivi edge
Un nuovo articolo di ricerca su arXiv (2604.27128) presenta un metodo per ridurre il backbone Perception Encoder di SAM 3, che ha 446 milioni di parametri, in un modello studente più gestibile da 40,66 milioni di parametri. Questo modello è progettato per tracciare singoli capi di bestiame su dispositivi edge. Utilizza una Feature Pyramid Network basata su TinyViT-21M-512 e un metodo di distillazione della perdita a quattro termini. Per gestire meglio la memoria GPU, impiega l'inferenza con sostituzione del backbone e il pruning delle sessioni a finestra scorrevole. Inoltre, la serie DINOv3 include un modello pre-distillato ViT-S/16 con 21,6 milioni di parametri, rilasciato insieme a un grande teacher ViT-7B da 6716 milioni di parametri, rendendolo utile per l'allevamento di precisione su dispositivi più economici.
Fatti principali
- Articolo arXiv 2604.27128
- Perception Encoder di SAM 3 distillato da 446M a 40,66M parametri
- Encoder studente utilizza TinyViT-21M-512 con Feature Pyramid Network
- Utilizzata perdita di distillazione a quattro termini direzione-scala
- Il pruning delle sessioni a finestra scorrevole limita la memoria GPU in streaming
- Variante DINOv3 ViT-S/16 ha 21,6M parametri
- Teacher DINOv3 ViT-7B ha 6716M parametri
- ViT-S (21M) adottato come embedder per singolo individuo
Entità
Istituzioni
- arXiv