Framework AI utilizza Street View per valutare le condizioni degli edifici a livello nazionale

ai-technology · 2026-04-25

Un team di ricercatori ha creato un framework che utilizza modelli linguistici multimodali di grandi dimensioni (LLM) insieme alle immagini di Google Street View (GSV) per valutare automaticamente le condizioni degli edifici in tutti gli Stati Uniti. Ottimizzando Gemma 3 27B con un piccolo dataset etichettato da umani, hanno ottenuto una forte correlazione con i punteggi medi di opinione umani (MOS), superando i valutatori individuali nelle metriche SRCC e PLCC. Per migliorare l'efficienza, è stata impiegata la distillazione della conoscenza per trasferire le competenze a un modello più piccolo Gemma 3 4B, che ha performato in modo simile con un aumento di velocità triplo. Un'ulteriore distillazione in EfficientNetV2-M basato su CNN e SwinV2-B basato su transformer ha prodotto prestazioni comparabili con un aumento di velocità di 30x. La ricerca esplora anche le capacità degli LLM nel valutare gli attributi dell'ambiente costruito e abitativo, creando uno strumento di visualizzazione per i risultati.

Fatti principali

Il framework utilizza LLM multimodali e immagini di Google Street View
Gemma 3 27B ottimizzato su dataset etichettato da umani
Supera i valutatori individuali in SRCC e PLCC rispetto al benchmark MOS
La distillazione della conoscenza su Gemma 3 4B raggiunge un aumento di velocità di 3x
Ulteriore distillazione su EfficientNetV2-M e SwinV2-B raggiunge un guadagno di velocità di 30x
Studio di allineamento umano-AI valuta attributi dell'ambiente costruito e abitativo
Sviluppato strumento di visualizzazione per i risultati
Pubblicato su arXiv con ID 2604.21102

Entità

Istituzioni

arXiv
Google

Luoghi

United States

Fonti

arXiv cs.AI — 2026-04-25