Framework AI utilizza Street View per valutare le condizioni degli edifici a livello nazionale
Un team di ricercatori ha creato un framework che utilizza modelli linguistici multimodali di grandi dimensioni (LLM) insieme alle immagini di Google Street View (GSV) per valutare automaticamente le condizioni degli edifici in tutti gli Stati Uniti. Ottimizzando Gemma 3 27B con un piccolo dataset etichettato da umani, hanno ottenuto una forte correlazione con i punteggi medi di opinione umani (MOS), superando i valutatori individuali nelle metriche SRCC e PLCC. Per migliorare l'efficienza, è stata impiegata la distillazione della conoscenza per trasferire le competenze a un modello più piccolo Gemma 3 4B, che ha performato in modo simile con un aumento di velocità triplo. Un'ulteriore distillazione in EfficientNetV2-M basato su CNN e SwinV2-B basato su transformer ha prodotto prestazioni comparabili con un aumento di velocità di 30x. La ricerca esplora anche le capacità degli LLM nel valutare gli attributi dell'ambiente costruito e abitativo, creando uno strumento di visualizzazione per i risultati.
Fatti principali
- Il framework utilizza LLM multimodali e immagini di Google Street View
- Gemma 3 27B ottimizzato su dataset etichettato da umani
- Supera i valutatori individuali in SRCC e PLCC rispetto al benchmark MOS
- La distillazione della conoscenza su Gemma 3 4B raggiunge un aumento di velocità di 3x
- Ulteriore distillazione su EfficientNetV2-M e SwinV2-B raggiunge un guadagno di velocità di 30x
- Studio di allineamento umano-AI valuta attributi dell'ambiente costruito e abitativo
- Sviluppato strumento di visualizzazione per i risultati
- Pubblicato su arXiv con ID 2604.21102
Entità
Istituzioni
- arXiv
Luoghi
- United States