Segmentazione delle Chiome degli Alberi in Condizioni di Scarsità di Dati: le CNN Pre-addestrate Superano i Transformer

other · 2026-05-07

Uno studio recente disponibile su arXiv valuta cinque modelli di deep learning per la segmentazione delle chiome degli alberi da immagini aeree, concentrandosi su uno scenario con dati limitati—nello specifico, solo 150 immagini etichettate dalla competizione Solafune Tree Canopy Detection. Le architetture esaminate includono YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet e DINOv2. I risultati indicano che i modelli basati su convoluzione, specialmente YOLOv11 e Mask R-CNN, dimostrano una generalizzazione superiore rispetto ai modelli basati su transformer. Al contrario, DeepLabv3, Swin-UNet e DINOv2 incontrano difficoltà a causa della natura distinta della segmentazione semantica rispetto a quella per istanze, delle sostanziali esigenze di dati dei Vision Transformer e di alcune limitazioni architetturali. Questi risultati sottolineano il ruolo critico della scelta del modello nel monitoraggio ambientale e nella pianificazione urbana quando i dati annotati sono scarsi.

Fatti principali

Lo studio valuta cinque architetture: YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, DINOv2
Dataset dalla competizione Solafune Tree Canopy Detection: 150 immagini annotate
I modelli basati su convoluzione (YOLOv11, Mask R-CNN) superano i modelli basati su transformer
DeepLabv3, Swin-UNet e DINOv2 ottengono prestazioni inferiori a causa di disallineamento del compito e requisiti di dati
La ricerca affronta la scarsità di annotazioni dei dati nell'analisi di immagini aeree
Pubblicato su arXiv con ID 2601.10931v2
Aree di applicazione: monitoraggio ambientale, pianificazione urbana, analisi degli ecosistemi

Segmentazione delle Chiome degli Alberi in Condizioni di Scarsità di Dati: le CNN Pre-addestrate Superano i Transformer

Fatti principali

Entità

Istituzioni

Fonti