I modelli visione-linguaggio automatizzano la generazione di diagrammi di incidenti per la sicurezza dei trasporti

ai-technology · 2026-04-20

Uno studio pubblicato su arXiv (2604.15332v1) dimostra come i modelli visione-linguaggio possano automatizzare la creazione di diagrammi di incidenti a partire dai rapporti di polizia, affrontando la natura dispendiosa in termini di tempo e variabile della preparazione manuale. Concentrandosi sulle rotonde multilane come caso di test complesso, i ricercatori hanno sviluppato un framework di prompt strutturato per guidare i modelli attraverso interpretazione, estrazione e sintesi visiva. Tre modelli—GPT-4o, Gemini-1.5-Flash e Janus-4o—sono stati valutati su 79 rapporti di incidente utilizzando un sistema a 10 metriche che valuta accuratezza semantica, fedeltà spaziale e chiarezza visiva. GPT-4o ha ottenuto il punteggio di prestazione media più alto di 6,29 su 10, seguito da Gemini-1.5-Flash a 5,28 e Janus-4o a 3,64. L'analisi ha evidenziato le capacità di ragionamento spaziale superiori di GPT-4o e la forte corrispondenza tra dati estratti e rappresentazioni visive. Questa ricerca esplora l'applicazione della tecnologia AI per migliorare l'analisi della sicurezza dei trasporti ottimizzando i processi di generazione dei diagrammi.

Fatti principali

Studio pubblicato su arXiv con identificatore 2604.15332v1
Si concentra sull'automazione della generazione di diagrammi di incidenti dai rapporti di polizia
Utilizza le rotonde multilane come caso di test impegnativo
Sviluppato framework di prompt strutturato in tre parti per il ragionamento del modello
Creato sistema di valutazione a 10 metriche per la qualità dei diagrammi
Testati tre modelli: GPT-4o, Gemini-1.5-Flash e Janus-4o
Valutato su 79 rapporti di incidente
GPT-4o ha ottenuto il punteggio di prestazione media più alto di 6,29/10

I modelli visione-linguaggio automatizzano la generazione di diagrammi di incidenti per la sicurezza dei trasporti

Fatti principali

Entità

Istituzioni

Fonti