Segmentazione delle Chiome degli Alberi in Condizioni di Scarsità di Dati: le CNN Pre-addestrate Superano i Transformer
Uno studio recente disponibile su arXiv valuta cinque modelli di deep learning per la segmentazione delle chiome degli alberi da immagini aeree, concentrandosi su uno scenario con dati limitati—nello specifico, solo 150 immagini etichettate dalla competizione Solafune Tree Canopy Detection. Le architetture esaminate includono YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet e DINOv2. I risultati indicano che i modelli basati su convoluzione, specialmente YOLOv11 e Mask R-CNN, dimostrano una generalizzazione superiore rispetto ai modelli basati su transformer. Al contrario, DeepLabv3, Swin-UNet e DINOv2 incontrano difficoltà a causa della natura distinta della segmentazione semantica rispetto a quella per istanze, delle sostanziali esigenze di dati dei Vision Transformer e di alcune limitazioni architetturali. Questi risultati sottolineano il ruolo critico della scelta del modello nel monitoraggio ambientale e nella pianificazione urbana quando i dati annotati sono scarsi.
Fatti principali
- Lo studio valuta cinque architetture: YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, DINOv2
- Dataset dalla competizione Solafune Tree Canopy Detection: 150 immagini annotate
- I modelli basati su convoluzione (YOLOv11, Mask R-CNN) superano i modelli basati su transformer
- DeepLabv3, Swin-UNet e DINOv2 ottengono prestazioni inferiori a causa di disallineamento del compito e requisiti di dati
- La ricerca affronta la scarsità di annotazioni dei dati nell'analisi di immagini aeree
- Pubblicato su arXiv con ID 2601.10931v2
- Aree di applicazione: monitoraggio ambientale, pianificazione urbana, analisi degli ecosistemi
Entità
Istituzioni
- arXiv
- Solafune