Sistema di Visione Artificiale Raggiunge Localizzazione Sub-Millimetrica di Frecce Utilizzando Vision Transformer Congelati

ai-technology · 2026-04-22

È stato sviluppato un innovativo sistema di visione artificiale per rilevare e valutare con precisione i fori delle frecce su bersagli da tiro con l'arco indoor da 40 cm. Il metodo richiede solo 48 fotografie annotate contenenti 5.084 fori per l'addestramento. Impiega un vision transformer auto-supervisionato congelato, specificamente DINOv3 ViT-L/16, combinato con l'upsampling guidato AnyUp per ottenere una precisione spaziale sub-millimetrica da token di patch 32x32. Una fase di rettifica canonica basata sul colore standardizza inizialmente le fotografie distorte prospetticamente in un sistema di coordinate dove le distanze dei pixel corrispondono a misurazioni fisiche note. Teste di rilevamento leggere in stile CenterNet predicono quindi mappe di calore dei centri delle frecce. Notevolmente, solo 3,8 milioni dei 308 milioni totali di parametri del modello sono addestrabili. Nella validazione incrociata su tre fold, il sistema ha ottenuto un punteggio F1 medio di 0,893 ± 0,011 e un errore di localizzazione medio di 1,41 ± 0,06 mm. Questa prestazione è paragonabile o supera approcci precedenti completamente supervisionati. La ricerca dimostra l'efficacia dello sfruttamento di grandi vision transformer pre-addestrati e congelati per compiti di predizione densa su dataset estremamente piccoli. Il documento tecnico che descrive questo sistema è disponibile su arXiv con l'identificatore 2604.16758v1.

Fatti principali

Il sistema automatizza il rilevamento, la localizzazione e la valutazione dei fori delle frecce su bersagli da tiro con l'arco da 40 cm.
Addestrato su sole 48 fotografie annotate contenenti 5.084 fori.
Utilizza un vision transformer DINOv3 ViT-L/16 congelato con upsampling guidato AnyUp.
Raggiunge precisione spaziale sub-millimetrica da token di patch 32x32.
Include una fase di rettifica canonica basata sul colore per standardizzare le immagini.
Impiega teste di rilevamento leggere in stile CenterNet per la predizione di mappe di calore.
Solo 3,8 milioni dei 308 milioni totali di parametri del modello sono addestrabili.
Ha ottenuto un punteggio F1 medio di 0,893 ± 0,011 e un errore di localizzazione medio di 1,41 ± 0,06 mm.

Sistema di Visione Artificiale Raggiunge Localizzazione Sub-Millimetrica di Frecce Utilizzando Vision Transformer Congelati

Fatti principali

Entità

Istituzioni

Fonti