SAM 3 e DINOv3 distillati per il monitoraggio del bestiame su dispositivi edge

ai-technology · 2026-05-01

Un nuovo articolo di ricerca su arXiv (2604.27128) presenta un metodo per ridurre il backbone Perception Encoder di SAM 3, che ha 446 milioni di parametri, in un modello studente più gestibile da 40,66 milioni di parametri. Questo modello è progettato per tracciare singoli capi di bestiame su dispositivi edge. Utilizza una Feature Pyramid Network basata su TinyViT-21M-512 e un metodo di distillazione della perdita a quattro termini. Per gestire meglio la memoria GPU, impiega l'inferenza con sostituzione del backbone e il pruning delle sessioni a finestra scorrevole. Inoltre, la serie DINOv3 include un modello pre-distillato ViT-S/16 con 21,6 milioni di parametri, rilasciato insieme a un grande teacher ViT-7B da 6716 milioni di parametri, rendendolo utile per l'allevamento di precisione su dispositivi più economici.

Fatti principali

Articolo arXiv 2604.27128
Perception Encoder di SAM 3 distillato da 446M a 40,66M parametri
Encoder studente utilizza TinyViT-21M-512 con Feature Pyramid Network
Utilizzata perdita di distillazione a quattro termini direzione-scala
Il pruning delle sessioni a finestra scorrevole limita la memoria GPU in streaming
Variante DINOv3 ViT-S/16 ha 21,6M parametri
Teacher DINOv3 ViT-7B ha 6716M parametri
ViT-S (21M) adottato come embedder per singolo individuo

SAM 3 e DINOv3 distillati per il monitoraggio del bestiame su dispositivi edge

Fatti principali

Entità

Istituzioni

Fonti